| CoLA |
单句分类任务,二分类,判断句子是否合法 |
paddlenlp.datasets.load_dataset('glue','cola') |
| SST-2 |
单句分类任务,二分类,判断句子情感极性 |
paddlenlp.datasets.load_dataset('glue','sst-2') |
| MRPC |
句对匹配任务,二分类,判断句子对是否是相同意思 |
paddlenlp.datasets.load_dataset('glue','mrpc') |
| STSB |
计算句子对相似性,分数为1~5 |
paddlenlp.datasets.load_dataset('glue','sts-b') |
| QQP |
判定句子对是否等效,等效、不等效两种情况,二分类任务 |
paddlenlp.datasets.load_dataset('glue','qqp') |
| MNLI |
句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 |
paddlenlp.datasets.load_dataset('glue','mnli') |
| QNLI |
判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 |
paddlenlp.datasets.load_dataset('glue','qnli') |
| RTE |
判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 |
paddlenlp.datasets.load_dataset('glue','rte') |
| WNLI |
判断句子对是否相关,相关或不相关,二分类任务 |
paddlenlp.datasets.load_dataset('glue','wnli') |
| LCQMC |
A Large-scale Chinese Question Matching Corpus 语义匹配数据集 |
paddlenlp.datasets.load_dataset('lcqmc') |
| ChnSentiCorp |
中文评论情感分析语料 |
paddlenlp.datasets.load_dataset('chnsenticorp') |
| COTE-DP |
中文观点抽取语料 |
paddlenlp.datasets.load_dataset('cote', 'dp') |
| SE-ABSA16_PHNS |
中文评价对象级情感分析语料 |
paddlenlp.datasets.load_dataset('seabsa16', 'phns') |
| AFQMC |
蚂蚁金融语义相似度数据集,1表示句子1和句子2的含义类似,0表示含义不同 |
paddlenlp.datasets.load_dataset('clue', 'afqmc') |
| TNEWS |
今日头条中文新闻(短文本)分类,共15类 |
paddlenlp.datasets.load_dataset('clue', 'tnews') |
| IFLYTEK |
长文本分类,共119个类别 |
paddlenlp.datasets.load_dataset('clue', 'iflytek') |
| OCNLI |
原生中文自然语言推理数据集,句子对三分类问题 |
paddlenlp.datasets.load_dataset('clue', 'ocnli') |
| CMNLI |
中文语言推理任务,判断sentence1和sentence2的关系:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 |
paddlenlp.datasets.load_dataset('clue', 'cmnli') |
| CLUEWSC2020 |
WSC Winograd模式挑战中文版,代词消歧任务,二分类任务 |
paddlenlp.datasets.load_dataset('clue', 'cluewsc2020') |
| CSL |
论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 |
paddlenlp.datasets.load_dataset('clue', 'csl') |
| EPRSTMT |
FewCLUE 评测中的电商产品评论情感分析数据集,Positive、Negative 情感 2 分类任务 |
paddlenlp.datasets.load_dataset('fewclue', 'eprstmt') |
| CSLDCP |
FewCLUE 评测中的中文科学文献学科分类数据集,根据文献的中文摘要判断文献类别,共 67 类别。 |
paddlenlp.datasets.load_dataset('fewclue', 'csldcp') |
| TNEWSF |
FewCLUE 评测中的今日头条中文新闻(短文本)分类,共15类 |
paddlenlp.datasets.load_dataset('fewclue', 'tnews') |
| IFLYTEK |
FewCLUE 评测中的长文本分类任务,共 119 个类别 |
paddlenlp.datasets.load_dataset('fewclue', 'iflytek') |
| OCNLIF |
FewCLUE 评测中的中文自然语言推理数据集,句子对三分类问题 |
paddlenlp.datasets.load_dataset('fewclue', 'ocnli') |
| BUSTM |
FewCLUE 评测中对话短文本语义匹配数据集, 2 分类任务 |
paddlenlp.datasets.load_dataset('fewclue', ‘bustm') |
| CHIDF |
FewCLUE 评测中的成语阅读理解填空, 根据文本内容从候选 7 个成语中预测正确的成语 |
paddlenlp.datasets.load_dataset('fewclue', 'chid') |
| CSLF |
FewCLUE 评测中的论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 |
paddlenlp.datasets.load_dataset('fewclue', 'csl') |
| CLUEWSCF |
FewCLUE 评测中的 WSC Winograd 模式挑战中文版,代词消歧任务,二分类任务 |
paddlenlp.datasets.load_dataset('fewclue', 'cluewsc') |
| THUCNews |
THUCNews中文新闻类别分类 |
paddlenlp.datasets.load_dataset('thucnews') |
| HYP |
英文政治新闻情感分类语料 |
paddlenlp.datasets.load_dataset('hyp') |
| XNLI |
15种语言自然语言推理数据集,三分类任务. |
paddlenlp.datasets.load_dataset('xnli', 'ar') |
| XNLI_CN |
中文自然语言推理数据集(XNLI的子集),三分类任务. |
paddlenlp.datasets.load_dataset('xnli_cn') |