Spider——关于数据转码问题 - 代码天地

Spider——关于数据转码问题

其他 2018-08-31 11:13:43 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_37049781/article/details/82020206

在爬虫的过程中，编码问题常常会遇到，数据在你面前总是隔了层纱，要么抛出个ascii错误，要么就是保存下来和打印出来的不一样

拉勾小案例

举个例子来探讨一下。
将拉勾网的城市分类信息保存到本地。
地址：拉勾城市信息

# _*_ coding:utf-8 _*_
import urllib2
import jsonpath
import json

url = "http://www.lagou.com/lbs/getAllCitySearchLabels.json"
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36"}

request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
print response.read()

这里写图片描述

html = response.read()
# 将返回内容转化为python中的数据对象（unicode编码）
py_obj = json.loads(html)
# 获取所有城市名（unicode编码）
all_city = jsonpath.jsonpath(py_obj,"$..name")

这里写图片描述

到这里我们已经获取到了所有的城市名，并且也知道了城市名是采用的unicode编码，如果用print打印出来的话就是我们很熟悉的汉字了。在这里根据需要存储到文件中

array = json.dumps(all_city)
with open('city_info.json',"w") as f:
    f.write(array)

如果这样保存，那么数据是肯定有些问题的，会显示
这里写图片描述
所以要进行一下编码处理再持久化存储

# json.dumps在处理数据的时候会默认以ascii的方式处理
array = json.dumps(all_city, ensure_ascii=False)
# 保存时需要encode一下
with open('city_info.json',"w") as f:           
    f.write(array.encode("utf-8"))

这里写图片描述

猜你喜欢

转载自blog.csdn.net/qq_37049781/article/details/82020206

Spider——关于数据转码问题

关于转码函数为空问题

关于SQL Server获取的数据遍历转码问题（数组转JSON）

关于 Scrapy 中自定义 Spider 传递参数问题

关于Mac电脑UTF8转码的问题

从redis存取数据的数据转码、转类型问题

关于那个转码的文章

ios中的转码问题

AES转码问题

URL转码问题

PHP转码问题

转码问题，乱码

ajax中文转码的问题

spider

关于jsp页面跳转传递中文值问题。要用到js转码和java解码。

关于FFmpeg对手机里拍摄的视频进行转码时角度问题的处理

一篇关于Json转码的问题特别是用了LitJson

用Spider引擎解决数据库垂直和水平拆分的问题

PHP导入文件的转码问题

python unicode 转码问题详解

pathon的转码错误问题 UnicodeDecodeError

font-spider问题【已解决】

PageRank算法（Dead ends、Spider Traps问题）

json_encode汉字转码，符号转码，/ 问题

转码

关于字符的编码和转码URLEncode URLDecode

Misc-关于图片转码的新思路。

spider数据抓取（第二章）

大数据开发神器——Scrapy Spider框架

Spider Note3数据提取方法

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)