python 基础学习 小问题 python 把文件按行读到一个list python scrapy 抓取豆瓣评论 返回乱码 解决:

python 把文件按行读到一个list

L = f.readlines()
L = [i.rstrip().split(':')[0] for i in L]
# print(L)

python scrapy 抓取豆瓣评论 返回乱码
解决:
注意 : cookie和user-agent可能是对应的 还有host也很重要 所以尽量用自己的浏览器全部最好. 当然只是少量抓取用. 其他大量还是排查一下是否可以替换某些参数 比如agent
是因为header的问题 直接用浏览器的header替换 scrapy中的配置即可
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3',

'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Cookie': '换成自己的',
'Host': 'www.douban.com',
'Upgrade-Insecure-Requests': '1',
'User-Agent': '换成自己的',

猜你喜欢

转载自www.cnblogs.com/stillstep/p/11135942.html
今日推荐