浏览器伪装技术爬取csdn伪装技术

友情提示:一般的网站都会有反爬虫技术,因此 想要爬取这些网站信息 就必须学会浏览器的伪装

想要伪装成浏览器 则必须为爬虫添加浏览器报头信息  ,这些报头信息需要技术人员亲自从网站代码中复制

例如csdn报头信息如下:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36


下面给出一个爬虫小实例:爬虫把csdn信息存入data中并输出data数量
 1 import urllib.request
 2 import re
 3 url="http://blog.csdn.net/"
 4 
 5 #伪装成浏览器报头  去浏览器中读代码找到 Use-Agent的值
 6 headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36")
 7 #创建oenener对象
 8 opener=urllib.request.build_opener()
 9 opener.addheader=[headers]
10 #把opener添加为全局
11 urllib.request.install_opener(opener)
12 
13 data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
14 print(len(data))

猜你喜欢

转载自www.cnblogs.com/du1269038969/p/9652955.html