CLUECorpus2020 语料#
名称 | 文本类型 | 纯文本大小 |
---|---|---|
CLUECorpus2020 | 中文 | 200GB |
CLUECorpus2020 过对Common Crawl的中文部分进行语料清洗得到。开源部分提供了约200G左右的语料文本,详细介绍见官网,用户可以通过邮件申请下载,方式如下:
数据下载 申请方式: 将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不向第三方提供。
邮箱: CLUEbenchmark@163.com,标题是:CLUECorpus2020 200G语料库