解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题 - 代码天地

解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题

其他 2019-01-23 16:04:40 阅读次数: 0

注意：此方法跟之前保存成json文件的写法有少许不同之处，注意区分

情境再现：

使用scrapy抓取中文网页，得到的数据类型是unicode，在控制台输出的话也是显示unicode,如下所示

{'author': u'\u51af\u53cb\u5170\u7b49',
'classification': u' \u4eba\u6587\u793e\u79d1',
'down_bd_code': u'\u63d0\u53d6\u5bc6\u7801\uff1asp6t',
'down_bd_url': u'https://pan.baidu.com/s/1N1NPVupmnPX6W5Fm2YHccg',
'title': u'\u4e2d\u897f\u65b9\u54f2\u5b66\u53f2\uff08\u5957\u88c5\u51712\u518c\uff09'}

保存成json文件时需要显示出中文

import json
import codecs

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


class WriteJsonPipeline(object):
    def __init__(self):
        self.file = codecs.open('items.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False) + '\n'
        self.file.write(line)
        return item

    def spider_closed(self, spider):
        self.file.close()

将以上内容插入pipelines.py,同时在settings.py中加入

ITEM_PIPELINES = {
'panda.pipelines.WriteJsonPipeline': 300
}

以调用pipelines文件

猜你喜欢

转载自www.cnblogs.com/sanduzxcvbnm/p/10309401.html

解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题

python 数据写入json文件时中文显示Unicode编码问题

python 解决抓取网页中的中文显示乱码问题

eclipse中 properties文件不显示中文，显示的unicode编码。

matplotlib中画图显示中文，但保存为图片后中文乱码

python中Scrapy实战之爬取网页并保存为json文件

html网页显示时中文乱码

Python 保存为json，并按json文件格式换行，中文不乱码

解决Idea配置文件不显示中文的问题

scrapy----将数据保存为json文件

php使用mysql数据库时中文不显示或显示异常解决方法

解决mysql 不显示中文问题

解决python 保存json到文件时中文显示16进制编码的问题

解决Matplotlib画图时中文显示为“口口”的问题

Python抓取网页并保存为PDF

MyEclipse的.properties文件中文显示问题(中文变Unicode码)解决方法

Django 下载文件保存为中文

Linux上mysql解决中文乱码，不显示中文问题

idea properties文件显示\u不显示中文的解决

Mac中使用matplotlib时中文不显示如何解决？

Unity 中文不显示问题

文件下载不显示中文显示乱码

解决 git 中文路径显示 unicode 代码的问题

idea解决properties中文显示unicode码问题

eclipse 关于*.properties 文件中文显示为Unicode，无法显示中文的问题（Properties Editor）

VTK绘图窗口vtkRenderWindow 保存为图片，并且不显示绘图窗口

字典保存为json文件

彻底解决delphi WebBroker服务器中文乱码 delphi WebBroker服务器不能显示中文网页 WebBroker中文显示乱码

Java解决Itext pdf中文不显示问题

matplotlib中文不显示问题的解决办法

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)