使用WikiExtractor提取维基百科语料 - 代码天地

使用WikiExtractor提取维基百科语料

其他 2020-04-09 00:05:48 阅读次数: 0

WikiExtractor的链接：https://github.com/attardi/wikiextractor
需要的环境官网有写明：The tool is written in Python and requires Python 2.7 or Python 3.3+ but no additional library.
意思是:基于python2.7或python3.3，且不需要依赖于第三方模块。
如果没有安装GitHub的，可以直接在这里下载。
有安装的：
git clone https://github.com/attardi/wikiextractor wikiextractor
cd wikiextractor
python setup.py install
至此，环境已配置好。接下来是下载Wikipedia的语料。
下载地址：https://dumps.wikimedia.org/zhwiki/，这里是下载中文语料库的地址，标志是zh
可通过查询自己需要的语种的639-1码，更改zh即可。比方说英语的，就是https://dumps.wikimedia.org/enwiki/
一般下载latest，根据需要选择日期。
在这里插入图片描述
进去后根据需要下载文件。我需要的是文章的，所以我下载的是：

这里提倡挂VPN下载，否则会很忙，还会出现下载中断情况，不过中断了重新开始即可。
下载完后，将该压缩文件拷贝进wikiextractor文件夹里面，接下来就是核心命令：
打开命令行：
cd wikiextractor
python WikiExtractor.py -b 1024M -o extracted enwiki-latest-pages-articles.xml.bz2
其中1024M是指单个文件允许的最大的占用硬盘的大小，接着就会出现：
在这里插入图片描述
我这里是已经跑了一段时间了，然后会在这个文件夹下出现一个文件夹extracted，里面就是提取出来的语料。

这是最终结束的时候：

weixin_40902563

发布了12 篇原创文章 · 获赞 3 · 访问量 2051

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_40902563/article/details/100137620

使用WikiExtractor提取维基百科语料

维基百科语料库训练词向量

维基百科语料中的词语相似度探索

Gensim训练维基百科语料库

Anconda3使用gensim训练中文维基百科语料库

维基百科

Windows下基于python3使用word2vec训练中文维基百科语料

Windows下基于python3使用word2vec训练中文维基百科语料(三)

Windows下基于python3使用word2vec训练中文维基百科语料(二)

windows下使用word2vec训练维基百科中文语料全攻略！（三

windows下使用word2vec训练维基百科中文语料全攻略！（二）

windows下使用word2vec训练维基百科中文语料全攻略！（一）

思想-维基百科

强大的维基百科

维基百科随笔

ffmpeg维基百科

中英文维基百科语料上的Word2Vec实验

基于Gensim的维基百科语料库中文词向量训练

基于维基百科构建平行语料库

【Python3】基于Gensim的维基百科语料库中文词向量训练

NLP 项目：维基百科文章爬虫和分类 - 语料库阅读器

使用中文维基百科进行GloVe实验

安装使用离线版本的维基百科(Wikipedia)

百度百科与维基百科

使用中文维基百科语料库训练一个word2vec模型并使用说明

MVC 来自维基百科

Paxos算法-维基百科

Scrum（转自维基百科）

致维基百科读者：

爬取维基百科

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)