首先下载wiki中文语料(大约1.7G)
https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
下载的文件名为“zhwiki-latest-pages-articles.xml.bz2”
这个大家都知道,然后没什么卵用,因为墙太强大,所以下载不下来,只能另辟蹊径了。。。
因此搜来搜去找到2个开源语料库
https://github.com/brightmart/nlp_chinese_corpus
https://github.com/crownpku/Awesome-Chinese-NLP 这个有丰富的语料资源
维基中文语料库地址
https://dumps.wikimedia.org/zhwiki/latest/
https://dumps.wikimedia.org/zhwiki/
里面包含了wike百科语料,希望项目越来越大,内容越来越丰富
随着研究的不断深入,发展中国在语料积累上还很欠缺
都是扯犊子 下了半天每一次下载成功的,最后改用迅雷下载,终于可以下载了
语料库地址目录
文本预处理 data_pre_process.py