CLUECorpus2020 语料#

名称 文本类型 纯文本大小
CLUECorpus2020 中文 200GB

CLUECorpus2020 过对Common Crawl的中文部分进行语料清洗得到。开源部分提供了约200G左右的语料文本,详细介绍见官网,用户可以通过邮件申请下载,方式如下:

数据下载 申请方式: 将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不向第三方提供。

邮箱: CLUEbenchmark@163.com,标题是:CLUECorpus2020 200G语料库