scrapy 爬虫返回json格式内容unicode编码转换为中文的问题解决 - 代码天地

scrapy 爬虫返回json格式内容unicode编码转换为中文的问题解决

其他 2018-11-14 10:30:52 阅读次数: 0

版权声明：版权声明：本文为博主原创文章，转载请注明出处！！！(●'◡'●) https://blog.csdn.net/xiaocy66/article/details/83479734

最近在基于python3.6.5 的环境使用scrapy框架爬虫获取json数据，返回的数据是unicode格式的，在spider里面的parse接口中打印response.text出来如下：

class TestSpider(Spider):
......
    def parse(self, response):
	    print(response.text)

结果如下：

{
	"status":"true",
	"last_view_time":null,
	"message":"",
	"shown_offset":0,
	"articles":[
	{
		"channel":"\u8d44\u8bafnew",
		"comments":113,
		"created_at":"09\u670828\u65e5",
		"desc":"  \u00a0 \u00a0 \u00a0 \u00a0 \u00a0\u00a0\u5173\u6ce8ITValue\uff0c\u67e5\u770b\u4f01\u4e1a\u7ea7\u5e02\u573a\u6700\u65b0\u9c9c\u3001\u6700\u5177\u4ef7\u503c\u7684\u62a5\u9053\uff01\u4e2d\u56fd\u667a\u6167\u529e\u516c\u54c1\u724c\u6df1\u5733\u5e02\u84dd\u51cc
		.......

python3版本开始取消了string的decode方法，不能像以前一样使用类似mystring.decode(“utf-8”) 的方式转码。

其实可以绕一下解决，先编码再解码：

 def parse(self, response):
     datas = json.dumps(response.text, ensure_ascii= False, indent=4, separators=(',', ': '))
     json_data = json.loads(datas).encode('utf-8').decode('unicode_escape')
     print(json_data)

关键在于：mystr.encode('utf-8').decode('unicode_escape')

最后打印内容正常了：

{
	"status":"true",
	"last_view_time":null,
	"message":"",
	"shown_offset":0,
	"articles":[
	{
		"channel":"默认",
		"comments":25,
		"created_at":"09月28日",
		"desc":"  了解快捷键能够提升您的生产力。这里有一些实用的 Ubuntu 快捷键助您像专业人士一样使用 Ubuntu。-- Abhishek Prakash有用的原文链接请访问文末的...","downs":0,"id":"82879369","isexpert":0,"sourcetype":1,"tag":"","title"
		............

猜你喜欢

转载自blog.csdn.net/xiaocy66/article/details/83479734

scrapy 爬虫返回json格式内容unicode编码转换为中文的问题解决

爬虫scrapy

scrapy爬虫

爬虫---scrapy

scrapy 爬虫

爬虫_scrapy

Scrapy爬虫笔记(scrapy、scrapy-redis、scrapyd部署scrapy)

[爬虫框架scrapy]scrapy的安装

Scrapy的问题

Scrapy问题

Scrapy爬虫框架抓取中文结果为Unicode码，如何转换UTF-8编码的解决办法

scrapy（一）scrapy 安装问题

scrapy爬虫学习系列七：scrapy常见问题解决方案

安装Scrapy框架问题解决

scrapy专题（十一）：scrapy 解决性能问题

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

scrapy 解决ip问题

Scrapy框架的使用之Scrapy通用爬虫

Python Scrapy 爬虫（二）：scrapy 初试

scrapy爬虫框架（一）：scrapy框架简介

scrapy专利爬虫（一）——scrapy简单介绍

爬虫框架Scrapy 之(一) --- scrapy初识

爬虫框架Scrapy 之(二) --- scrapy文件

【爬虫框架-scrapy】scrapy工具的使用

python 爬虫 6 （scrapy item、scrapy pipelines）

scrapy框架--？乱码unicode

scrapy爬虫与反爬虫

Scrapy 爬虫返回403错误

scrapy抓取dmoz内容

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)