【wiki维基百科中文数据集】抽取wiki数据集——实操 - 代码天地

【wiki维基百科中文数据集】抽取wiki数据集——实操

其他 2019-04-24 14:58:02 阅读次数: 0

参考

【https://blog.csdn.net/wangyangzhizhou/article/details/78348949】

【另外一篇参考处理wiki数据】

　　【1】【https://blog.csdn.net/sinat_26917383/article/details/79462107】

　　　　【上述代码】【https://github.com/mattzheng/ChineseWiki/blob/master/README.md】

　　【2】【https://blog.csdn.net/jdbc/article/details/59483767】

　　一、下载数据集

　　到【https://dumps.wikimedia.org/zhwiki/latest/】下载最新的中文wiki百科数据集【zhwiki-latest-pages-articles.xml.bz2】。

　　也就是【https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2】

　　

　　二、提取原始语料库数据（新词汇：语料库（corpus —— corpora【复数】））

　　（一）节点信息

　　据说xml节点信息类似如下：（待验证）

<page>
  <title></title>
  <id></id>
  <timestamp></timestamp>
  <username></username>
  <comment></comment>
  <text xml:space="preserve"></text>
</page>

　　（二）抽取数据

　　【抽取数据工具】：使用Wikipedia的extractor抽取工具。

# 克隆下载wikipedia的Extractor工具
git clone https://github.com/attardi/wikiextractor.git wikiextractor

# 进入提取工具目录。我的该目录和语料文件.xml.bz2在同一个目录下
cd wikiextractor

# 提示了权限问题 记得要在前面sudo一下
python setup.py install

# 注意这里.xml.bz2文件在.py文件的上一级 需要对.xml.bz2文件的位置改动 改为相对路径 即 ../xxxx.xml.bz2
python WikiExtractor.py -b 1024M -o ../extracted zhwiki-latest-pages-articles.xml.bz2

# 然后提取了好久 等着吧 等啊等

　　

=====================

　　记录了一下时间，刷屏太快只能靠截图手算估计。(372w-365w)/min=7w条目/min。

　　不知道为何其他博主都是几十w条的数据量，我下载的这个数据包目前还在解压中已经过了426w条了额……

=====================

　　（三）原始语料文件内容——实例

猜你喜欢

转载自www.cnblogs.com/anno-ymy/p/10510791.html

【wiki维基百科中文数据集】抽取wiki数据集——实操

［例说NLP］使用gensim处理wiki百科中文数据

WIKi 百科爬虫

中文维基百科数据处理

zhwiki：中文维基百科数据获取与处理，抽取文本，opencc繁简转化，词向量训练

设计模式（1）——简介（翻译自维基百科wiki）

抓取维基百科数据

寻找海量数据集用于大数据开发实战(维基百科网站统计数据)

wiki中文文本语料下载，在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

【数据集分析】NYT-Wiki关系抽取数据集分析（一）—— 理解单条实例

小项目（Gensim库）--维基百科中文数据处理

【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 直观的关系实例分布图

【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数

windows环境下使用wiki中文百科及gensim工具库训练词向量

维基百科

我的维基百科wikipedia的配置(中文维基百科配置)

[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

年龄识别数据集IMDB-WIKI

思想-维基百科

强大的维基百科

维基百科随笔

ffmpeg维基百科

ChineseWiki︱百万中文维基百科词条下载与整理

使用中文维基百科进行GloVe实验

用维基百科训练中文词向量

中文维基百科获取与处理流程

[中文]什么是Log probability？- 摘自维基百科

利用MySql数据库接受维基百科信息

【Highcharts教程】使用NodeJS和Highcharts可视化维基百科数据

spark实战之：分析维基百科网站统计数据(java版)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)