wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

首先下载wiki中文语料(大约1.7G)
https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
下载的文件名为“zhwiki-latest-pages-articles.xml.bz2”
这个大家都知道,然后没什么卵用,因为墙太强大,所以下载不下来,只能另辟蹊径了。。。

因此搜来搜去找到2个开源语料库

https://github.com/brightmart/nlp_chinese_corpus

https://github.com/crownpku/Awesome-Chinese-NLP  这个有丰富的语料资源

维基中文语料库地址

https://dumps.wikimedia.org/zhwiki/latest/

https://dumps.wikimedia.org/zhwiki/

里面包含了wike百科语料,希望项目越来越大,内容越来越丰富

随着研究的不断深入,发展中国在语料积累上还很欠缺

都是扯犊子   下了半天每一次下载成功的,最后改用迅雷下载,终于可以下载了

http://academictorrents.com/

语料库地址目录

文本预处理  data_pre_process.py

猜你喜欢

转载自blog.csdn.net/qq_29678299/article/details/92403395