关于python爬虫语句的解析

这是python 爬虫的网页内容信息的

if __name == '__main__': url = "https://blog.csdn.net/qq_36958104"

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"

headers = {'User-Agent':user_agent}

关于user_agent的解析:

在使用爬虫的时候,python默认的user-agent头是形如Python-urllib/2.1的,导致在访问某些网站的时候,被拒绝访问,解决的办法就是给自己的爬虫伪装一个user-agent头。 
常用的user-agent头有 
一、IE 浏览器 
而IE各个版本典型的userAgent如下: 
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0) 
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2) 
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT) 
IE8的User-Agents:详细说明如下: 
IE8 on Windows Vista (兼容浏览) 
  
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Trident/4.0) 
IE8 on Windows Vista 
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0) 
IE8 on Windows 7 
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0) 
64-bit IE on 64-bit Windows 7: 
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0) 
32-bit IE on 64-bit Windows 7: 
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0) 
其中,版本号是MSIE之后的数字。

二、Firefox 浏览器 
Firefox几个版本的userAgent大致如下: 
Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1 
Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3 
Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12 
其中,版本号是Firefox之后的数字。

三、Opera 浏览器 
Opera典型的userAgent如下: 
Opera/9.27 (Windows NT 5.2; U; zh-cn) 
Opera/8.0 (Macintosh; PPC Mac OS X; U; en) 
Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0 
其中,版本号是靠近Opera的数字。

四、Safari 浏览器 
Safari典型的userAgent如下: 
Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Version/3.1 Safari/525.13 
Mozilla/5.0 (iPhone; U; CPU like Mac OS X) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/4A93 Safari/419.3 
其版本号是Version之后的数字。

五、 Chrome 浏览器 
Chrome的userAgent是: 
Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13 
其中,版本号在Chrome之后的数字。

写了这么多,其实最有用的还是mozilla的user-agent。 
python使用user-agent头的方法是: 
request = urllib2.Request(url) 
request.add_header(‘user-agent’) 
reader= urllib2.urlopen(request) 
红色部分代码表示将http  request头中的UserAgent设置为与用户设置的UserAgent一致,即相当于将程序伪装成普通浏览器,这样一般的网站就不会禁止程序抓取网页了。

猜你喜欢

转载自blog.csdn.net/qq_36958104/article/details/81477538