商业爬虫学习笔记day2

1. get传参

（1）url中包含中文报错解决方法

urllib.request.quote("包含中文的url", safe = "string.printtable")

（2）字典传参

最终url由url和参数拼接而成，而参数（params）的类型为字典，所以拼接要将字典参数转化为字符串类型，如下：

import urllib.request
import urllib.parse
import string

def get_params():
    url = "http://www.baidu.com/s?"

    params = {
        "wd": "中文",
        "key": "zhang",
        "value": "san"
    }
    str_params = urllib.parse.urlencode(params)
    print(str_params)     #此处打印的结果为  wd=%E4%B8%AD%E6%96%87&key=zhang&value=san 
    final_url = url + str_params
    # 将带有中文的url 转译成计算机可以识别的url
    end_url = urllib.parse.quote(final_url, safe=string.printable)
    print(end_url)
    response = urllib.request.urlopen(end_url)
    data = response.read().decode("utf-8")
    print(data)
get_params()

2. post

urllib.request.openurl(url, data = "服务器接收的数据")

3.请求头：

urlib.request.openurl（），查看源码可发现此方法并没有headers属性，所以得要自己定义一个请求对象，而这个对象中有headers属性

request = urllib.request.Request(url)
request_headers = request.headers  # 获取到请求头的信息

（1）创建请求对象：urllib.request.Request(url)

（2）加User-Agent: 模拟真实的浏览器发送请求（若使用同一个User-Agent短时间发送多次请求，对方服务器就能察觉出是爬虫，所以可以定义一个User-Agent池，随机从中获取代理）

import urllib.request
import random

def load_baidu():

    url = "http://www.baidu.com"
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1",
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        "Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50"

    ]
    #每次请求的浏览器都是不一样的
    random_user_agent = random.choice(user_agent_list)
    request = urllib.request.Request(url)
    #增加对应的请求头信息(user_agent)
    request.add_header("User-Agent",random_user_agent)

    #请求数据
    response = urllib.request.urlopen(request)
    #请求头的信息
    print(request.get_header("User-agent"))

load_baidu()

（3）request.add_header(动态添加head数据)

（4）响应头response.header

代码

import urllib.request

def load_baidu():
    url = "http://www.baidu.com"
    header = {
        # 浏览器的版本
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
        "Haha": "hehe"  # 无效，请求头中无此信息，在后面打印请求头也可看出无此项
    }
    # 创建请求对象
    request = urllib.request.Request(url)
    # print(request)
    # print(request.headers)
    # 动态去添加head的信息
    request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
    # 请求网络数据（不在此处加请求头信息是因为此方法系统没有提供参数）
    response = urllib.request.urlopen(request)
    data = response.read().decode("utf-8")

    # 获取完整的url
    final_url = request.get_full_url()
    print(final_url)
    # 获取请求头的信息（所有header信息）
    request_headers = request.headers # 第一种方法
    print(request_headers)
    # 第二种方法，注意：首字母需要大写，其它字母都小写
    request_headers = request.get_header("User-agent")
    print(request_headers)
    with open("02header.html", "w", encoding="utf-8")as f:
        f.write(data)

load_baidu()

4. IP代理：

若使用同一个IP短时间发送多个请求，被请求的服务器也能发现是爬虫，此时就要用不同的ip去发送请求，就涉及到IP代理

（1）免费的IP：时效性差，错误率高

付费的IP：贵花钱，也有失效不能用的

（2）IP分类：

透明：对方知道我们的真实IP

匿名：对方不知道我们真实的ip，但知道你使用了代理

高匿：对方不知道我们真实的IP，也不知道我们使用了代理

5. handler（不是很清楚）

（1）urllib.request.urlopen()方法中并没有添加代理的功能，需要我们自己定义这个功能，所以要讲下handler

代码：

import urllib.request
import urllib.request

def handler_openner():
    #系统的urlopen并没有添加代理的功能所以需要我们自定义这个功能
    #urlopen为什么可以请求数据 handler处理器
    #自己的oppener请求数据
    # urllib.request.urlopen()
    url = "https://blog.csdn.net/m0_37499059/article/details/79003731"
    #创建自己的处理器
    handler = urllib.request.HTTPHandler()
    #创建自己的oppener
    opener=urllib.request.build_opener(handler)
    #用自己创建的opener调用open方法请求数据
    response = opener.open(url)
    # data = response.read()
    data = response.read().decode("utf-8")
    with open("02header.html", "w", encoding="utf-8")as f:
        f.write(data)

handler_openner()

（2）创建对应的处理器（handler）

1. 代理处理器：ProxyHandler

2. 利用ProxyHandler创建opener:

3. opener.open(url)就可以请求数据

具体代码如下

import urllib.request

def proxy_user():

    proxy_list = [
        {"https":""},
        # {"https":"106.75.226.36:808"},
        # {"https":"61.135.217.7:80"},
        # {"https":"125.70.13.77:8080"},
        # {"https":"118.190.95.35:9001"}
    ]
    for proxy in proxy_list:
        print(proxy)
        #利用遍历出来的ip创建处理器
        proxy_handler = urllib.request.ProxyHandler(proxy)
        #创建opener
        opener = urllib.request.build_opener(proxy_handler)

        try:
            data = opener.open("http://www.baidu.com",timeout=1)

            haha = data.read()
            print(haha)
        except Exception as e:
            print(e)


proxy_user()

商业爬虫学习笔记day2

猜你喜欢