Python第一个脚本

#!/usr/bin/env python
# -*- coding:utf-8 -*-
'''
这是我的第一个Python爬虫脚本
使用的是Python3.7.0
2018-12-01 14:02
'''
import urllib.request
import random

# url = 'https://www.autohome.com.cn/beijing/'
url = 'https://www.baidu.com/'
# url中的中文的参数可以通过 urllib.parse.quote()  进行转化

#模拟浏览器的请求,反爬虫的第一步
ua_list = [
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
        "Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
        "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
        "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"
]
# 在User-Agent列表里面随机选择一个User-Agent
user_agent = random.choice(ua_list)

# 通过urllib.request.Request() 方法构造一个请求函数
request = urllib.request.Request(url)

# add_header()方法 添加/修改 一个HTTP报头
request.add_header("User-Agent", user_agent)

# 向指定的url地址发送请求， 并返回服务器响应的类文件对象
reponse = urllib.request.urlopen(request)

# 服务器返回的类文件对象支持Python文件对象的操作方法
# read() 方法就是读取文件里的全部内容，返回字符串
resout_html = reponse.read().decode('utf-8') # 返回页面的内容
resout_statcode = reponse.getcode() # 返回响应码
resout_url = reponse.geturl() # 获取发送请求的url
resout_info = reponse.info() # 获取发送请求的url


print(resout_html)
猜你喜欢