自然语言处理入门一：zhwiki数据处理 - 代码天地

自然语言处理入门一：zhwiki数据处理

其他 2018-10-30 18:51:45 阅读次数: 0

版权声明：本博客系博主原创或转载，允许转载，但请保留原文出处。 https://blog.csdn.net/heivy/article/details/83448199

##参考文献：
自然语言处理1
自然语言处理2

中文wiki数据下载地址约1.6G 20181027
英文wiki数据下载地址约15G 20181027

博主环境

		win10 X64
		Anaconda3.7
		python3.5

wiki数据下载完成后的文件名为：enwiki-latest-pages-articles.xml.bz2 或者：zhwiki-latest-pages-articles.xml.bz2
解压后是xml格式，数据处理前首先需要把xml格式数据转换成TXT文件，
转换代码是：process_wiki.py
本人改进后的版本

在运行原版process_wiki.py时，遇到以下编解码问题：

	UnicodeEncodeError: 'gbk' codec can't encode character '\u0294' in position 281: illegal multibyte sequence

	包括但不限于：‘\xf6’ 、'\xe4' 、'\u0294' ;

楼主百度和谷歌了几个解决办法，但都不起作用

楼主采坑后得到2个解决办法（治标不治本）

1、在output之前进行数据的判断，凡是含义以上字符的数据段，都丢弃。  （丢失数据比较少，仅仅丢掉了数据段里面的一个元素）
2、在output之前加 try…except… (凡是引起UnicodeError错误的 数据段都丢弃) （丢失数据相对1法，丢弃数据比较多，丢掉了整个数据段）

本文允许转载，但请注明本出处，谢谢(#^.#)

猜你喜欢

转载自blog.csdn.net/heivy/article/details/83448199

自然语言处理入门一：zhwiki数据处理

自然语言处理入门

zhwiki数据处理：

自然语言处理入门小白从0开始学自然语言处理+学习笔记（一）

中文自然语言处理入门实战

NLP-自然语言处理入门（持续更新）

自然语言处理入门（8）——TextRank

自然语言处理入门---学习方法概述

自然语言处理入门----中文分词原理

中文自然语言处理入门流程

Python NLTK 自然语言处理入门与例程

入行 AI 必看的《中文自然语言处理入门》

《自然语言处理入门》笔记-第1章

写给小白的自然语言处理入门简介

视频 | Python自然语言处理入门

《自然语言处理入门》读书笔记

谈谈我在自然语言处理入门的一些个人拙见

文本数据处理(自然语言处理基础)

自然语言处理入门小白从0开始学自然语言处理+学习笔记（二）

自然语言处理（NLP）入门（一）

【自然语言处理入门】03：利用线性回归对数据集进行分析预测（上）

【自然语言处理入门】03：利用线性回归对数据集进行分析预测（下）

自然语言处理入门练习（一）：基于机器学习的文本分类及实战（附代码）

Spark（一）—— 大数据处理入门

自然语言处理入门（1）——中文分词原理及分词工具介绍

Hanlp中文自然语言处理入门基础知识

NLP汉语自然语言处理入门基础知识介绍

自然语言处理入门以及TensorFlow官网教程Vector Representations of words简介

自然语言处理入门（4）——中文分词原理及分词工具介绍

HanLP《自然语言处理入门》笔记--1.新手上路

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)