python爬虫入门之————————————————第三节requests详解

版权声明:CSDN 博主刘康康 https://blog.csdn.net/liiukangkang/article/details/84593134

1.下载安装

(1)命令安装方式

Windows:打开命令窗口行,直接运行包管理命令安装

         pip install requests   or  essy_install requests(简易版)

         unix/linux:打开 shell 窗口,运行包管理命令安装 pip install requests 

(2)离线安装

           下载离线安装包 pip install requests-2.20.0-py2.py3-none-any.whl    

     官方网站  https://pypi.org/project/pip/

2.入门程序

# 引入依赖包 
import requests 
# 发送请求获取服务器数据
 response = requests.get("http://www.sina.com.cn") 
# 得到数据 
print(response.text) 
  • request.get :用于发送一个get请求给服务器,可以得到服务器的响应数据
  • response.text :从响应对象中获取文本数据

     ps:自己try do it

3.请求对象:请求方式

HTTP1.1 规范中定义了 8 中请求操作方式:GET|POST|PUT|DELETE|OPTION|CONNECT|HEAD|PATCH 时下 WEB 项目比较流行的 RESTFul 请求方式有四种:GET|POST|PUT|DELETE 常规 WEB 项目最常用的请求方式有两种:GET|POST 

⚫ requests.request(method, url, **kwargs): ◼ 底层发送请求的操作方式

⚫ requests.get(url, params=None, **kwargs): ◼ 发送 GET 请求

⚫ requests.post(url, data=None, json=None, **kwargs): ◼ 发送 POST 请求

⚫ requests.put(url, data=None, **kwargs): ◼ 发送 PUT 请求

⚫ requests.delete(url, **kwargs): ◼ 发送 DELETE 请求

⚫ requests.patch(url, data=None, **kwargs): ◼ 发送 PATCH 请求

⚫ requests.options(url, **kwargs): ◼ 发送 OPTIONS 请求

⚫ requests.head(url, **kwargs): ◼ 发送 HEAD 请求 

4.请求对象:GET参数传递

requests.get(url, params=None, **kwargs)   #发送GET请求
@param url: get 请求服务器的地址

@param params: get 请求中附带的参数

@param kwargs: 其他附带参数,详情参照 requests.request()源代码 

import requests 

target_url = 'http://www.baidu.com/s'    #定义目标url

data = {'wd': '魔道祖师'} 

response = requests.get(target_url, params=data) 

print(response.text) 

⚫ get 请求方式要传递的参数是字典形式的数据,直接赋值给 params 参数即可 

5.请求对象:POST参数的传递

requests.post(url, data=None, json=None, **kwargs)              #发送POST的请求

@param url: post 请求服务器的 url 地址

@param data: post 请求中包含的常规参数数据

@param json: post 请求中包含的 like dict 数据/json 参数数据

# 引入依赖的模块
 import requests # 定义目标 url 地址
 # url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule' url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule' # 传递 post 中包含的参数
 data = {   

    "i":"hello",
    "from":"AUTO",
    "to":"AUTO",
    "smartresult":"dict",
    "client":"fanyideskweb",    
    "salt":"1541660576025",
    "sign":"4425d0e75778b94cf440841d47cc64fb", 
    "doctype":"json",
    "version":"2.1",
    "keyfrom":"fanyi.web", 
    "action":"FY_BY_REALTIME",
    "typoResult":"false", 

    } # 发送请求获取服务器返回的响应数据
response = requests.post(url, data=data) 
print(response.text)  

6.请求对象:定制请求头

requests模块中的请求   底层都是通过requests.request(url,**kwargs)的headers参数进行操作

import requests   # 引入依赖的模块
from fake_useragent import UserAgent 


ua = UserAgent() # 定义请求地址和请求头数据
url = 'http://www.baidu.com/s' 
headers = {'User-agent': ua.random} 
param = {'wd': 'PYTHON 爬虫'} # 发送请求获取响应数据
response = requests.get(url, headers=headers) 
print(response.text) 

7.请求对象:cookie 


WEB 开发中 cookie 经常被用于基于客户端的状态保持操作,所以在常规爬虫处理过程中,cookie 的操作是最重要的操作之一。 可以直接通过定义一个字典数据传递给 requests 请求模块的 cookies 参数,添加请求中的 cookie 数据 requests 中提供的 requests.cookies.RequestCookieJar()也可以在请求中添加处理 cookie 数据的操作并且更加适合跨域场景 
 

8.响应对象 
爬虫从网络上采集数据,采集到的数据主要区分为如下几种类型:文本数据、二进制数据 requests 模块在响应对象中,针对返回的数据进行了不同的封装处理 


⚫ response.encoding: 设置响应数据的编码,可以直接赋值 ◼ response.encoding = ‘utf-8’ 
⚫ response.text: 获取响应对象中包含的文本数据 
⚫ response.content: 获取响应对象中包含的二进制数据 
⚫ response.json(): 获取响应对象中的 JSON 数据,数据必须正确解析,负责 raise ValueError 
⚫ response.raw: 特殊情况下直接获取底层 socket 数据流,此时请求中必须设置参数 stream=True 表示允许数据流处理 
⚫ response.headers: 响应对象的响应头数据 
⚫ response.status_code: 响应对象中的响应状态码 
⚫ response.cookie:获取响应对象中包含的 cookie 数据 

9.案例演示

登陆入口:http://www.renren.com/PLogin.do  
登录成功后,尽可能多的采集人人网用户数据信息 

提取人人网用户数据的思路
    1. 使用注册账号,登录人人网[才有权限查看个人信息]
    2. 关注几个网红~爬虫采集
        采集1:他们关注的人|关注他的人 个人主页 链接
        采集2:当前用户的个人信息[姓名、年龄、毕业学校、家乡地址...]

    3. 循环采集每个人的个人主页链接改造后的 关注的人|关注他的人  个人主页

Try DO It

"""
Version 1.1.0
Author lkk
Email [email protected]
date 2018-11-21 16:55
DESC 人人网信息爬取
"""
from selenium import webdriver
import requests
from lxml import html
from fake_useragent import UserAgent
import time, re
import utils1

ua = UserAgent()

# 人人网:用户数据采集
login_url = "http://www.renren.com/PLogin.do"
# 账号密码
authentication = {'email': '1307170****', 'password': '*******'}
# 伪造请求头
headers = {
    'User-agent': ua.random,
}
# 发送请求,登录网站
session = requests.Session()
response = session.post(login_url, data=authentication, headers=headers)
response.encoding = 'utf-8'


# 获取个人信息:模拟
personal_url = 'http://follow.renren.com/list/968835593/pub/v7'


# 访问该地址,需要携带身份信息:状态保持使用的cookie数据

response2 = session.get(personal_url, headers=headers)
response2.encoding = 'utf-8'
# print()
# 处理结果数据
docs = html.fromstring(response2.text)
data = docs.xpath("//div[@class='module border']/ul[@id='follow_list']/li//div[@class='info']/a[@class='name']/@href")
name = docs.xpath("//a[@class='name']/text()")
for i in range(len(data)):
    print(name[i], data[i])
# 从关注的网红里面爬取他们的粉丝信息
    response3 = session.get(data[i], headers=headers)
    response3.encoding = 'utf-8'
    # print(response3.text)
    docs1 = html.fromstring(response3.text)
    link = docs1.xpath("//div[@class='has-friend']/h5/a[@class='title']/@href")
    id = docs1.xpath("//button[@id='followAdd']/@data-id")
    print(id[0])
    school = docs1.xpath("//ul/li[@class='school']/span/text()")
    sex = docs1.xpath("//ul/li[@class='birthday']/span[1]/text()")
    bron = docs1.xpath("//ul/li[@class='birthday']/span[2]/text()")
    hometown = docs1.xpath("//ul/li[@class='hometown']/text()")
    school = school if len(school) > 0 else "暂无"
    sex = sex if len(sex) > 0 else "暂无"
    bron = bron if len(bron) > 0 else "暂无"
    bron = bron if len(bron) > 0 else "暂无"
    print(link[0])
    time.sleep(5)
    print(school, sex, bron, hometown)
    # 自己关注网红的粉丝
    response4 = session.get(link[0], headers=headers)
    response4.encoding = 'utf-8'
    docs2 = html.fromstring(response4.text)
    all_link = docs2.xpath("//li/div[@class='info']/a[@class='name']/@href")
    fans_count = docs2.xpath("//ul/li[@class='select']/span/text()")
    name = docs2.xpath("//div[@class='info']/a[@class='name']/text()")
    fans_number = docs2.xpath("//div[@class='info']/p[@class='atten']/text()")
    for info in range(len(name)):
        print(name[info], fans_number[info], all_link[info])
        # utils1.mysql(name[info], fans_number[info], all_link[info])
    for k in range(20, int(fans_count[0]), 10):
        long_index = 'http://follow.renren.com/list/'+id[0]+'/submore?visitId=968835593&offset='+str(k)+'&limit=10&requestToken=1198899405&_rtk=1336bf27'

        # target_url = all_link[j] + '/profile/'
        # print(target_url)
        response5 = session.get(long_index, headers=headers)
        response5.encoding = 'utf-8'
        docs3 = html.fromstring(response5.text)
        # print(response5.text)
        fans_id = re.findall(r'"id":(\d+),', response5.text)
        fans_name = re.findall(r'name":"(.*?)"', response5.text)
        fans_fans_count = re.findall(r',"subscriberCount":(.*?),"', response5.text)
        for n in range(len(fans_id)):
            if int(fans_fans_count[n]) > 0:
                print(fans_name[n], fans_fans_count[n], "http://www.renren.com/" + fans_id[n] + '/profile?v=info_timeline')
                # utils1.mysql(fans_name[n], fans_fans_count[n], "http://www.renren.com/" + fans_id[n] + '/profile/')
            else:
                pass
        # fans_school = docs3.xpath("//ul/li[@class='school']/span/text()")
        # fans_sex = docs3.xpath("//ul/li[@class='birthday']/span[1]/text()")
        # fans_bron = docs3.xpath("//ul/li[@class='birthday']/span[2]/text()")
        # fans_hometown = docs3.xpath("//ul/li[@class='hometown']/text()")
        # fans_school = fans_school if len(fans_school) > 0 else "暂无"
        # fans_sex = fans_sex if len(fans_sex) > 0 else "暂无"
        # fans_bron = fans_bron if len(fans_bron) > 0 else "暂无"
        # fans_hometown = fans_hometown if len(fans_hometown) > 0 else "暂无"
        # print(fans_school, fans_sex, fans_bron, fans_hometown)
        # time.sleep(5)

猜你喜欢

转载自blog.csdn.net/liiukangkang/article/details/84593134