语料收集

其他 2020-02-10 18:54:01 阅读次数: 0

Prerequisite:

Install OpenCC in Ubuntu with:

sudo apt-get install opencc

Then run with:

opencc <options>

How to use:

Download data from wiki dumps: e.g.
https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
or
https://dumps.wikimedia.org/zhwiki/
Use WikiExtractor to extract title and contents from xml:
python WikiExtractor.py -b 500M -o extracted --json zhwiki-latest-pages-articles.xml.bz2
Note: the --json flag will export file into json instead of html-like text.
ref: https://github.com/attardi/wikiextractor
(Optional) Use OpenCC to convert traditional Chinese to simplified Chinese.
opencc -i wiki_00 -o zh_wiki_c zht2zhs.ini
Run convert_symbols.py to extract text only

Reference:
https://blog.csdn.net/u013421941/article/details/68947622

发布了26 篇原创文章 · 获赞 0 · 访问量 1074

私信关注

猜你喜欢

转载自blog.csdn.net/qq_41212157/article/details/102581223

语料收集

NLTK（语料库）

语料库

原始语料库

语料库汇总【转载】

语料库基础学习

语料库函数总结

中文语料库

对话语料库

中文语料库有哪些

NLTK常用操作和语料库

自然语言处理语料库

汉语和英语语料库

日本语语料库

语料库的获取与词频分析

搜狗新闻语料库解析

NLP学习（二）-语料库学习

一、语音识别语料库

nlp4-语料库

国内可用免费语料库

语料库与语言知识库

TIMIT语料库音频格式转换

维基百科语料库训练词向量

自然语言处理中语料库的理解

自然语言处理之中英语料库

语料库之职业名持续更新:

python 提取sogou中文语料库

Gensim训练维基百科语料库

中文情感分析语料库【下载】

【自然语言处理】浅谈语料库

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)