scrapy response.text 乱码问题解决方案

其他 2020-01-16 15:11:19 阅读次数: 0

scrapy response.text 乱码问题解决方案

这个网页很怪异，scrapy爬取到的楼栋名称是乱码，postman也是，而下载下来的页面却是正常显示。

通过postman将页面下载后，得到encoding='gbk' or 'gb2312' or 'gb18030' （gb18030 为 gb2312 和 gbk 的超集，可以应付大部分中文编码），浏览器下载后的HTML中无meta标签。

通过scrapy shell调试，scrapy shell "http://www.czhome.com.cn/building.asp?ProjectID=1021&projectName=&PreSell_ID=9142&Start_ID=7094"

reponse.body，是bytes类型，直接decode，response.body.decode('gbk'),易得目标值正确。那怎么才能拿到decode后的str？

reponse.text，是str类型，直接输出目标值(楼栋名称)也是乱码，尝试decode，需要先encode，response.text.encode('utf-8').decode('gbk'),输出的目标值依旧不满足要求，即与web页面显示不一致。

其实response.text = response.body.decode(response.encoding)

reponse.encoding = 'cp1252'，尝试修改encoding ，提示不提供修改，所以输出 response.body.decode('gbk')再进行xpath的路是不通咯。

了解 `reponse`对象，先来理解`Response`这个类

type(reponse) ='scrapy.http.response.html.HtmlResponse' HtmlResponse??百度之。。。找到这篇文章

Scrapy中的Reponse和它的子类（TextResponse、HtmlResponse、XmlResponse），说HtmlResponse是TextResponse的子类，

so？TextResponse是？能不能重写这个类的某个方法？以达到修改encoding的目的？

理解Scrapy的Response的数据结构,

尝试将str转为TextResponse,然后只用xpath解析，MD,实在不行就直接借HTML了，那就浪费了好用的xpath

意外发现可以这样，

response.text.encode('cp1252').decode('gbk')

那就可以这样输出了
response.xpath("//tr[@class='indextabletxt'][1]/td[1]/a/text()").get().encode(response.encoding).decode('gbk')。

哈哈哈哈，其实就是解码get()后的str，就是解码response.text，意外实现了，其实早就应该发现的。

记录一下。

巴啦啦小魔仙变身

发布了85 篇原创文章 · 获赞 27 · 访问量 16万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_22038327/article/details/101778560

scrapy response.text 乱码问题解决方案

解决爬虫response.text后中文的乱码问题

Sublime Text3 for mac 中文乱码问题解决方案

sublime text3输出窗口中文显示乱码问题解决方案

response.text 与 response.content

response.text和response.content

scrapy爬虫学习系列七：scrapy常见问题解决方案

python中response.text与response.content的区别

response.text 和response.content的区别

爬虫笔记：response.text和response.content的区别

response.text和 response.content的区别:

python response.text和response.content的区别

安装Scrapy框架问题解决

docker push "server gave HTTP response to HTTPS client"问题解决方案

MySQL数据库字段类型 text 超长报错问题解决方案

Servlet中response、request乱码问题解决

request和response的乱码问题解决

乱码问题解决方案

Fiddler中Response 的Raw乱码问题解决 Fiddler中Response 的Raw乱码问题解决

Sublime Text 3注册及中文乱码问题解决

python中的requests,response.text与response.content ,及其编码

Scrapy - response.css()

scrapy框架-- response

Scrapy框架----- Request/Response

Scrapy_request&response

Scrapy源码 Response对象

Scrapy验证response内容

scrapy 安装问题解决方法

用Pyinstaller打包Scrapy项目问题解决！！！

Scrapy整合Elasticsearch时的KeyError(*)问题解决

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)