pyspider爬网页出现中文乱码的解决办法

其他 2019-04-26 13:34:39 阅读次数: 0

为什么会出现乱码呢？按照binux的说法

这就是 lxml 的蛋疼之处，给它 unicode 它有的时候它不认，给它 bytes 它又处理不好

方法1：

response.content = (response.content).decode('utf-8') #目标站是 utf-8 编码

方法2：

response.content = response.content.decode('gbk', errors='ignore')#目标站是gbk

方法3：（binux的方案）

import pyquery
doc = pyquery.PyQuery(response.text)

方案3的好处是，不必知道源站编码，而直接由pyquery来接管。

猜你喜欢

转载自www.cnblogs.com/alpiny/p/10773701.html

pyspider爬网页出现中文乱码的解决办法

关于网页出现乱码解决办法

Hql传中文参数出现乱码解决办法

Android以post方式传输中文出现乱码解决办法

Navicat for mysql 中文保存出现乱码的解决办法

springMVC中，出现中文乱码的解决办法produces

HttpClient提交表单出现中文乱码的解决办法

ssh连接linux出现中文乱码的解决办法

Qt—MSVC版本中出现中文乱码的解决办法

js代码的中文出现乱码，解决办法很简单

NotePad 打开文件出现中文汉字乱码解决办法

安装kali出现中文乱码的解决办法

myEclipse代码中文出现乱码的解决办法

VSCode打开.c文件出现中文乱码解决办法

node爬取网页gbk2313乱码解决办法

Linux中文乱码解决办法

SecureCRT 中文乱码解决办法

MySql中文乱码解决办法

20 中文乱码解决办法

git中文乱码解决办法

CentOS中文乱码解决办法

Rhythmbox中文乱码解决办法

mysql 中文乱码解决办法总结

linux 中文显示乱码解决办法

mysql保存中文乱码的解决办法

Debian中文乱码解决办法

Servlet之中文乱码的解决办法

mysql中文乱码最全解决办法

RestClient的request中文乱码的解决办法

关于SpringMVC中文乱码的解决办法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)