自然语言处理入门一:zhwiki数据处理

版权声明:本博客系博主原创或转载,允许转载,但请保留原文出处。 https://blog.csdn.net/heivy/article/details/83448199

##参考文献
自然语言处理1
自然语言处理2

中文wiki数据下载地址约1.6G 20181027
英文wiki数据下载地址约15G 20181027

博主环境

		win10 X64
		Anaconda3.7
		python3.5

wiki数据下载完成后的文件名为:enwiki-latest-pages-articles.xml.bz2 或者:zhwiki-latest-pages-articles.xml.bz2
解压后是xml格式,数据处理前首先需要把xml格式数据转换成TXT文件,
转换代码是:process_wiki.py
本人改进后的版本

在运行原版process_wiki.py时,遇到以下编解码问题:

	UnicodeEncodeError: 'gbk' codec can't encode character '\u0294' in position 281: illegal multibyte sequence

	包括但不限于:‘\xf6’ 、'\xe4' 、'\u0294' ; 

楼主百度和谷歌了几个解决办法,但都不起作用

楼主采坑后得到2个解决办法(治标不治本)

1、在output之前进行数据的判断,凡是含义以上字符的数据段,都丢弃。  (丢失数据比较少,仅仅丢掉了数据段里面的一个元素)
2、在output之前加 try…except… (凡是引起UnicodeError错误的 数据段都丢弃) (丢失数据相对1法,丢弃数据比较多,丢掉了整个数据段)

本文允许转载,但请注明本出处,谢谢(#.#)

猜你喜欢

转载自blog.csdn.net/heivy/article/details/83448199