iconv 文件编码转换--知网的情感字典数据

背景:

下载了知网的情感字典数据,打开的时候是乱码,但是英文的字典数据是可以直接看的,很奇怪。
乱码形式如下: 

原因 :

不知道上传文件的人用什么编码方式,mac默认了utf-8解码方式

解决:

问了一下后端同学,这是怎么回事,后端同学给了我一行命令,成功“破译”了该编码方式。
命令: iconv -f gbk -t utf-8  负面情感词语(中文).txt > de_负面情感词语.txt
将“iconv -f gbk -t utf-8  负面情感词语(中文).txt”得到的转码后的文件写到“de_负面情感词语.txt”文件中,如果没有">"的话,会打印输出在屏幕上。

iconv命令的用法:

iconv [选项...] [文件...]

有如下选项可用:

输入/输出格式规范:
-f, --from-code=名称 原始文本编码
-t, --to-code=名称 输出编码

信息:
-l, --list 列举所有已知的字符集

输出控制:
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息

参考:
https://www.cnblogs.com/xuxm2007/archive/2010/11/09/1872379.html

猜你喜欢

转载自blog.csdn.net/pearl8899/article/details/121497381
今日推荐