Python編碼格式錯誤解決方案及案例

其他 2019-07-24 12:54:55 阅读次数: 0

Python格式錯誤解決方案及案例

　　這幾天在玩爬蟲，在解析和提取内容時經常出現由於内容格式問題導致出錯，為防止以後出錯，整下一下，以下是這幾天的總結：

　　1. 特殊符號或表情符號等

　　　　背景：爬取一個烹飪教學網站，在用BeautifulSoup解析網頁時報錯：

　　　　UnicodeEncodeError: 'UCS-2' codec can't encode character '\U0001f44d' in position 0: Non-BMP character not supported in Tk

　　　　解決方法：

　　　　import sys

　　　　non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)

　　　　targetText=targetText.translate(non_bmp_map)

　　　　其中targetText即你需要轉化的文本。

　　2. csv中寫入中文出現亂碼

　　　　背景：csv module是經典的操作csv控件的方法，一般來説操作csv文件都會用'utf-8'格式編碼,如下：

　　　　

import csv 

targetText=['abc','efg']

csv_target=open('mycsv.csv','a+',newlien='',encoding='utf-8')

writer=csv.writer(csv_target)

writer.writerow(targetText)

csv_target.close()

往其中寫入中文時(即targetText包含中文時，如targetText=['張三','李四'])會出現亂碼。

　　　　解決方法：修改編碼方式為'utf-8-sig'

import csv 

targetText=['張三','李四']

csv_target=open('mycsv.csv','a+',newlien='',encoding='utf-8')

writer=csv.writer(csv_target)

writer.writerow(targetText)

csv_target.close()

　　

　　python的編碼格式是個大坑.

　　暫時先更新到這，後面遇到再繼續更新。

　　

　　　　

　　

猜你喜欢

转载自www.cnblogs.com/riocasture/p/11237197.html

Python編碼格式錯誤解決方案及案例

svn的兩個錯誤解決記錄

compiler錯誤訊息與解決方式

[錯誤解決]android.view.WindowManager$BadTokenException: Unable to add window

PIL及matplotlib：OSError: cannot identify image file錯誤及解決方式

MacOS下git clone [email protected]: Permission denied （publickey）錯誤及解決方式

jupyter notebook -socket.gaierror: [Errno -5] No address associated with hostname錯誤及解決方式

python flask錯誤

MySQL錯誤:Value '0000-00-00' can not be represented as java.sql.Date解決方法

Failed building wheel for xxx/configure: error: no acceptable C compiler found in $PATH錯誤及解決辦法

Windows10封裝中出現“無法驗證你的Windows安裝”錯誤解決方法

qt操作excel報錯解決

Java如何進行Base64的編碼(Encode)與解碼(Decode)？

什麼可能會導致SD卡錯誤的格式化以及如何救援？

Android 解決DNS污染方案

ORA-28002: 密碼將在 7 天後到期之問題解決

Python 模塊更新與安裝時出現錯誤

[NIOS][Eclipse] undefined reference to `main' 錯誤

Ubuntu 20.04 錯誤記錄

Oracle12c client安裝報錯[INS-20802] Oracle Net Configuration Assistant failed完美解決

[ Linux ] [ Unix ] [ Shell script ] 解決 window 編輯 shell script 多餘換行字元問題

SecureCRT 登錄linux查看檔案內容中文顯示亂碼問題解決

Tensorflow從源碼編譯

Unity 3D : 實作 BMP 編碼器 ( 以 Byte 字節編碼 )

SQL2005對象名錯誤的原因

sed: extra characters at the end of l command及undefined label錯誤

python第二天課程： %s, while else, 初始編碼，邏輯運算

HTTP 遠端伺服器傳回一個錯誤: (500) 內部伺服器錯誤。

原碼、反碼、補碼詳解

騰訊大廈有39層的問題解決方案。

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)