python读入中文文本编码错误 - 代码天地

python读入中文文本编码错误

其他 2018-06-06 16:12:46 阅读次数: 0

python读入中文文本编码错误

python读入中文txt文本：

#coding:utf-8

def readFile():
    fp = open('emotion_dict//neg//neg_all_dict.txt','r')
    list = []
    for line in fp:
        list.append(line)
    fp.close()
    print(list)
readFile()

但是有时候会出现错误提示：

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 10: illegal multibyte sequence

此时，需要对代码做一个小的调整，就可以读入中文，即以中文二进制'rb'读入txt，然后转换为'utf-8'，具体代码如下：

#coding:utf-8

def readFile():
    fp = open('emotion_dict//neg//neg_all_dict.txt','rb')
    list = []
    for line in fp.readlines():
        line = line.strip()
        line = line.decode('utf-8')
        list.append(line)
    fp.close()
    print(list)
readFile()

猜你喜欢

转载自blog.csdn.net/qiang12qiang12/article/details/53493334

python读入中文文本编码错误

Python 3 中文文档编码问题

【NLP】Python中文文本聚类

保存中文文本

C++中文本的读入

Python 中文文本分词（包含标点的移除）

SnowNLP：中文文本处理Python库

Python + wordcloud + jieba 中文文本生成词云

[python] jieba 模块 -- 给中文文本分词

自然语言处理 | (19) Python中文文本表示

Python - 中文文本情感分析（基于snownlp ）

Python中文文本分句 sentence tokenize

中文文本预处理

中文文本分类

中文文本分句

python读入文件编码问题

python 中文文档

python中文件的读入操作

python的中文文本挖掘库snownlp进行购物评论文本情感分析实例

中文文本摘要提取（文本摘要提取有代码）基于python

中文文本蕴含计算项目(88万中文文本蕴含数据集+中文文本蕴含模型)

URL中文编码与文本中文编码的关系

LinuxMint解决中文文本乱码问题

中文文本分类1

CNN在中文文本分类的应用

中文文本分类大概的步骤

Spark中文文本聚类

中文文本的关键字提取

java 中文文本分词

2.中文文本分类

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)