整体介绍#

数据集和数据处理部分一直是NLP任务中最重要的环节之一。为了方便用户以更低的学习成本完成这一环节，PaddleNLP提供了以下特性：

核心API#

load_dataset() ：数据集快速加载接口，通过传入数据集读取脚本的名称和其他参数调用 DatasetBuilder 子类的相关方法生成数据集。关于加载数据集的详细方法，请查阅加载数据集。
DatasetBuilder ： DatasetBuilder 是一个基类，所有的内置数据集都继承自该类，该类的主要功能是下载和读取数据集文件并生成Dataset。其中大部分方法已经封装，不对贡献者暴露。贡献者通过重写 _get_data() 和 _read() 等方法像社区贡献数据集。详细信息请查阅如何贡献数据集。
MapDataset/IterDataset ：PaddleNLP内置数据集类型，分别是对 paddle.io.Dataset 和 paddle.io.IterableDataset 的扩展。内置诸如 map() , filter() 等适用于NLP任务的数据处理功能。同时还能帮助用户简单创建自定义数据集。详细信息请查阅***和如何自定义数据集。

目前PaddleNLP的通用数据处理流程如下：

加载数据集（内置数据集或者自定义数据集，数据集返回 原始数据）。
定义 trans_func() ，包括tokenize，token to id等操作，并传入数据集的 map() 方法，将原始数据转为 feature 。
根据上一步数据处理的结果定义 batchify 方法和 BatchSampler 。
定义 DataLoader ，传入 BatchSampler 和 batchify_fn() 。

下面是基于Bert的文本分类任务的数据处理流程图：

关于数据处理的详细信息，请查阅数据处理。