用Python进行文本分析时出现UnicodeDecodeError错误的解决方法 - 代码天地

用Python进行文本分析时出现UnicodeDecodeError错误的解决方法

其他 2018-09-15 03:38:52 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_28616789/article/details/79261176

问题：利用Python对文本进行分析时，出现UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xef in position 0: ordinal not in range(128)

先看下面这段Python代码：

filename = 'alice.txt'
try:
    with open(filename) as f_obj:
        contents = f_obj.read()
except FileNotFoundError:
    msg = "Sorry, the file " + filename + " does not exist."
    print(msg)
else:
    # 计算文件大致包含多少单词
    words = contents.split()
    num_words = len(words)
    print("The file " + filename + " has about " + str(num_words) + " words.")

运行的结果如下：

  File "/Users/tiramisu/python_work/10/alice.py", line 5, in <module>
    contents = f_obj.read()
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/encodings/ascii.py", line 26, in decode
    return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 0: ordinal not in range(128)

正是出现了标题中所说的UnicodeDecodeError。

这个问题我在网上找了很多方法，都没能成功解决。最后经过一番波折，终于成功解决了这个问题。

方法就是：

在打开文本的时候，就用utf-8格式。

就我这个代码而言，只需将第3行的

with open(filename) as f_obj:

修改为：

with open(filename, encoding='utf-8') as f_obj:

即可。

修改后再次运行改代码，结果如下：
这里写图片描述

至此，该问题已经解决。

猜你喜欢

转载自blog.csdn.net/qq_28616789/article/details/79261176

用Python进行文本分析时出现UnicodeDecodeError错误的解决方法

python进行文本分析

【Python】使用pip install时出现UnicodeDecodeError错误解决方法

使用pickle时出现UnicodeDecodeError的解决方法

Python 针对打包文件出现UnicodeDecodeError错误解决方法

python读取文本时出现的问题和解决方法

使用fastText进行文本分类及源码分析时的一点感受

pull时出现错误及解决方法

在SAP HANA Express Edition里进行文本分析

怎样使用NLPIR平台进行文本分析

pyinstaller打包时出现 “UnicodeDecodeError: 'gbk' codec can't decode byte”解决方法

文本分类（2）-基于传统机器学习方法进行文本分类

使用R语言包clusterProfiler做KEGG富集分析时出现的错误及解决方法

14 python读取文件时出现UnicodeDecodeError: 'gbk' codec can't decode byte 0xb7 in position 26: illegal multibyte sequence解决方法

安装VMWare Workstation时出现1021错误，解决方法

树莓派安装 MySQL 时出现错误的解决方法

使用CNN进行文本分类

使用RNN进行文本分类

用Clang编译出现错误的解决方法

使用MDK5进行DEBUG时出现“cannot access target shutting down debug session”错误的解决方法

基于文本的深度学习方法的TensorFlow实现(2)——使用RNN进行文本分类

Django 运行Admin 页面时出现 UnicodeDecodeError: 'gbk' codec can't decode byte XXXX解决方法

NLP系列(2)_用朴素贝叶斯进行文本分类(上)

NLP用朴素贝叶斯进行文本分类（二）

用Flair（PyTorch构建的NLP开发包）进行文本分类

NLP系列(3)_用朴素贝叶斯进行文本分类(下)

python 文本分析

python文本分析

安卓安装apk时出现“解析程序包时出现错误” 的解决方法

pyshp UnicodeDecodeError解决方法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)