【整理】难得的中文开源数据集

搞大模型训练，最重要的就是高质量的数据集。

得数据者得天下。全球最大的AI开源社区Huggingface上，已经有5万多的开源数据集了，其中涉及中文的数据集只有区区可怜的151个。中国的AI产业要迎头赶上，中文的数据集是最大的短板之一。

上海人工智能实验室搞了一个OpenDataLab，上面发布了5000+的中文的开源数据集，可以随意下载下来，用来训练自己的AI大模型的，真的是功德无量啊。

最近OpenDataLab自己发布一份非常齐全的用来做大模型预训练的中英文语料库，叫做：「书生·万卷」，取意于：读书破万卷之意。

搞大模型训练，最重要的就是高质量的数据集。所以得数据者得天下。全球最大的AI开源社区Huggingface上，已经有5万多的开源数据集了，其中涉及中文的数据集只有区区可怜的151个。中国的AI产业要迎头赶上，中文的数据集是最大的短板之一。

上海人工智能实验室搞了一个OpenDataLab，上面发布了5000+的中文的开源数据集，可以随意下载下来，用来训练自己的AI大模型的，真的是功德无量啊。

近OpenDataLab自己发布一份非常齐全的用来做大模型预训练的中英文语料库，叫做：「书生·万卷」，取意于：读书破万卷之意。

书生·万卷这个语料库，包含文本数据集、图文数据集、视频数据集三部分，数据总量超过2TB。既然包含了文本、图像和视频数据，所以完全可以拿过来训练多模态的大模型了。

其中的文本数据集，来源于网页、维基百科、专业书籍、教材和考试题，超过5亿个文档。中文和英文大约各占一半。

其中的图像数据集，主要来源于网页、维基百科等，大约2220万个文档。

视频数据不多，主要来自央视和上海卫视的电视节目，大约1000+个视频。这个视频数据说实话不太行：一方面是数据太少，另一方面视频的来源过于单一，所以价值不太大。

但不管怎么说，这都是我看到的第一个包含了多模态的开源数据集，总的容量也超过了2TB了。对于国内的很多想搞开源的大模型，或者想基于LLaMA 2预训练中文大模型来说，这个数据集也算是弥足珍贵了。毕竟，高质量的中文数据集实在太稀缺了，要自己从头来积累数据集，都是一个旷日持久的事情。

另外，OpenDataLab上还是有不少好的数据的，特别是「医疗」领域，颇有一些不错的数据集，真是是一个宝库。

最后还是希望中文的高质量开源数据集多多益善，中国的AI社区发展越来越好。

其中的文本数据集，来源于网页、维基百科、专业书籍、教材和考试题，超过5亿个文档。中文和英文大约各占一半。

其中的图像数据集，主要来源于网页、维基百科等，大约2220万个文档。

另外，OpenDataLab上还是有不少好的数据的，特别是「医疗」领域，颇有一些不错的数据集，真是是一个宝库。

最后还是希望中文的高质量开源数据集多多益善，中国的AI社区发展越来越好。