PaddleNLP Datasets API#

PaddleNLP提供了以下数据集的快速读取API,实际使用时请根据需要添加splits信息

阅读理解#

数据集名称 简介 调用方法
SQuAD 斯坦福问答数据集,包括SQuAD1.1和SQuAD2.0 paddlenlp.datasets.load_dataset('squad')
DuReader-yesno 千言数据集:阅读理解,判断答案极性 paddlenlp.datasets.load_dataset('dureader_yesno')
DuReader-robust 千言数据集:阅读理解,答案原文抽取 paddlenlp.datasets.load_dataset('dureader_robust')
CMRC2018 第二届“讯飞杯”中文机器阅读理解评测数据集 paddlenlp.datasets.load_dataset('cmrc2018')
DRCD 台達閱讀理解資料集 paddlenlp.datasets.load_dataset('drcd')
TriviaQA Washington大学问答数据集 paddlenlp.datasets.load_dataset('triviaqa')
C3 阅读理解单选题 paddlenlp.datasets.load_dataset('c3')

文本分类#

数据集名称 简介 调用方法
CoLA 单句分类任务,二分类,判断句子是否合法 paddlenlp.datasets.load_dataset('glue','cola')
SST-2 单句分类任务,二分类,判断句子情感极性 paddlenlp.datasets.load_dataset('glue','sst-2')
MRPC 句对匹配任务,二分类,判断句子对是否是相同意思 paddlenlp.datasets.load_dataset('glue','mrpc')
STSB 计算句子对相似性,分数为1~5 paddlenlp.datasets.load_dataset('glue','sts-b')
QQP 判定句子对是否等效,等效、不等效两种情况,二分类任务 paddlenlp.datasets.load_dataset('glue','qqp')
MNLI 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 paddlenlp.datasets.load_dataset('glue','mnli')
QNLI 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 paddlenlp.datasets.load_dataset('glue','qnli')
RTE 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 paddlenlp.datasets.load_dataset('glue','rte')
WNLI 判断句子对是否相关,相关或不相关,二分类任务 paddlenlp.datasets.load_dataset('glue','wnli')
LCQMC A Large-scale Chinese Question Matching Corpus 语义匹配数据集 paddlenlp.datasets.load_dataset('lcqmc')
ChnSentiCorp 中文评论情感分析语料 paddlenlp.datasets.load_dataset('chnsenticorp')
COTE-DP 中文观点抽取语料 paddlenlp.datasets.load_dataset('cote', 'dp')
SE-ABSA16_PHNS 中文评价对象级情感分析语料 paddlenlp.datasets.load_dataset('seabsa16', 'phns')
AFQMC 蚂蚁金融语义相似度数据集,1表示句子1和句子2的含义类似,0表示含义不同 paddlenlp.datasets.load_dataset('clue', 'afqmc')
TNEWS 今日头条中文新闻(短文本)分类,共15类 paddlenlp.datasets.load_dataset('clue', 'tnews')
IFLYTEK 长文本分类,共119个类别 paddlenlp.datasets.load_dataset('clue', 'iflytek')
OCNLI 原生中文自然语言推理数据集,句子对三分类问题 paddlenlp.datasets.load_dataset('clue', 'ocnli')
CMNLI 中文语言推理任务,判断sentence1和sentence2的关系:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 paddlenlp.datasets.load_dataset('clue', 'cmnli')
CLUEWSC2020 WSC Winograd模式挑战中文版,代词消歧任务,二分类任务 paddlenlp.datasets.load_dataset('clue', 'cluewsc2020')
CSL 论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 paddlenlp.datasets.load_dataset('clue', 'csl')
EPRSTMT FewCLUE 评测中的电商产品评论情感分析数据集,Positive、Negative 情感 2 分类任务 paddlenlp.datasets.load_dataset('fewclue', 'eprstmt')
CSLDCP FewCLUE 评测中的中文科学文献学科分类数据集,根据文献的中文摘要判断文献类别,共 67 类别。 paddlenlp.datasets.load_dataset('fewclue', 'csldcp')
TNEWSF FewCLUE 评测中的今日头条中文新闻(短文本)分类,共15类 paddlenlp.datasets.load_dataset('fewclue', 'tnews')
IFLYTEK FewCLUE 评测中的长文本分类任务,共 119 个类别 paddlenlp.datasets.load_dataset('fewclue', 'iflytek')
OCNLIF FewCLUE 评测中的中文自然语言推理数据集,句子对三分类问题 paddlenlp.datasets.load_dataset('fewclue', 'ocnli')
BUSTM FewCLUE 评测中对话短文本语义匹配数据集, 2 分类任务 paddlenlp.datasets.load_dataset('fewclue', ‘bustm')
CHIDF FewCLUE 评测中的成语阅读理解填空, 根据文本内容从候选 7 个成语中预测正确的成语 paddlenlp.datasets.load_dataset('fewclue', 'chid')
CSLF FewCLUE 评测中的论文关键词识别,判断关键词是否全部为真实关键词,二分类任务 paddlenlp.datasets.load_dataset('fewclue', 'csl')
CLUEWSCF FewCLUE 评测中的 WSC Winograd 模式挑战中文版,代词消歧任务,二分类任务 paddlenlp.datasets.load_dataset('fewclue', 'cluewsc')
THUCNews THUCNews中文新闻类别分类 paddlenlp.datasets.load_dataset('thucnews')
HYP 英文政治新闻情感分类语料 paddlenlp.datasets.load_dataset('hyp')
XNLI 15种语言自然语言推理数据集,三分类任务. paddlenlp.datasets.load_dataset('xnli', 'ar')
XNLI_CN 中文自然语言推理数据集(XNLI的子集),三分类任务. paddlenlp.datasets.load_dataset('xnli_cn')

文本匹配#

数据集名称 简介 调用方法
CAIL2019-SCM 相似法律案例匹配 paddlenlp.datasets.load_dataset('cail2019_scm')

序列标注#

数据集名称 简介 调用方法
MSRA_NER MSRA 命名实体识别数据集 paddlenlp.datasets.load_dataset('msra_ner')
People's Daily 人民日报命名实体识别数据集 paddlenlp.datasets.load_dataset('peoples_daily_ner')
CoNLL-2002 西班牙语和荷兰语实体识别数据集 paddlenlp.datasets.load_dataset('conll2002', 'es')

机器翻译#

数据集名称 简介 调用方法
IWSLT15 IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集 paddlenlp.datasets.load_dataset('iwslt15')
WMT14ENDE WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集 paddlenlp.datasets.load_dataset('wmt14ende')

机器同传#

数据集名称 简介 调用方法
BSTC 千言数据集:机器同传,包括transcription_translation和asr paddlenlp.datasets.load_dataset('bstc', 'asr')

对话系统#

数据集名称 简介 调用方法
DuConv 千言数据集:开放域对话,中文知识型对话数据集 paddlenlp.datasets.load_dataset('duconv')

文本生成#

数据集名称 简介 调用方法
Poetry 中文诗歌古典文集数据 paddlenlp.datasets.load_dataset('poetry')
Couplet 中文对联数据集 paddlenlp.datasets.load_dataset('couplet')
DuReaderQG 基于DuReader的问题生成数据集 paddlenlp.datasets.load_dataset('dureader_qg')
AdvertiseGen 中文文案生成数据集 paddlenlp.datasets.load_dataset('advertisegen')
LCSTS_new 中文摘要生成数据集 paddlenlp.datasets.load_dataset('lcsts_new')
CNN/Dailymail 英文摘要生成数据集 paddlenlp.datasets.load_dataset('cnn_dailymail')

语料库#

数据集名称 简介 调用方法
PTB Penn Treebank Dataset paddlenlp.datasets.load_dataset('ptb')
Yahoo Answer 100k 从Yahoo Answer采样100K paddlenlp.datasets.load_dataset('yahoo_answer_100k')