Python crawler apprend les paramètres de requête de module dans les requêtes deux

1. Paramètres de requête du module de requêtes

1 Ceci est la dernière explication


method: 请求方法  get  post
url: 请求的链接地址

反扒的三剑客
headers: (可选的) 构建请求头字段的关键字参数, 构建字典
cookies: (可选的) 通过这个关键字传递cookies字段信息, 构建字典
proxies: (可选的) ip代理的关键字参数, 构建字典

请求参数的三剑客
params: (可选的) 构建查询参数的关键字
data: (可选的) 构建请求参数的关键字
json: (可选的) 以 json 数据提交的请求参数关键字, 构建字典
    
timeout: (可选的) 设置响应时间, 单位/, 如果超过这个时间程序会报错 最大180秒
allow_redirects: (可选的) 是否允许重定向, 默认如果发生了重定向, 会自动重定向, 设置布尔值
verify: (可选的) 是否验证网站证书  ca证书  ssl证书, 默认为Ture, 默认会校验证书 返回警告

files: (可选的) 文件操作
stream: (可选的) 数据流数据, 是都是数据流数据, 实时更新的数据(直播,弹幕,股票)

2.Mots clés de la demande json

1. Dans certains cas, la demande envoyée par la poste utilisera des paramètres json pour construire des mots clés, tels que l'adresse : url='http://www.zfcg.sh.gov.cn/'



import requests
url = 'http://www.zfcg.sh.gov.cn/front/search/category'
json_data = {
    
    
    "utm": "sites_group_front.2ef5001f.0.0.07ec2550d86011edb93db70f086e4f9a",
    "categoryCode": "ZcyAnnouncement3012",
    "pageSize": '15',
    "pageNo": '1'
}
# json 主要是以json字符串提交的请求参数
response = requests.post(url=url, json=json_data)
print(response.json())

Veuillez ajouter une description de l'image

2. N'oubliez pas que ce mot-clé est recherché dans la charge utile de la demande, sinon, il n'est pas nécessaire de construire des paramètres de requête json.

3. Construction des mots-clés cookies

1 En python, le mot-clé cookies peut être construit de trois manières,

①. Construire ensemble dans les en-têtes de requête

②.Construisez les mots-clés des cookies séparément sous la forme d'un dictionnaire de cookies


# 单独构建cookies字典
# cookies = {'Cookie': 'REALTIME_TRANS_SWITCH=1; SOUND_SPD_SWITCH=1; HISTORY_SWITCH=1; FANYI_WORD_SWITCH=1; SOUND_PREFER_SWITCH=1; PSTM=1657895499; BIDUPSID=D26C29435949C22624426B7C5A1F52F3; ab_sr=1.0.1_MDJhNTY0OGI3NzhkNjMxNGE5ZWY3MzNiNGI3OGJiMjRmYjJlNGQ2NThkYjYyNzc5OTllMWEwZWFiMDM5MjBlODYwOWI4Y2M0Zjc5NWNkMGFjNmI5OGM2NDkwOTBmNjAxYzVjZTdiMTc3ZjkxMWQ4ZTM0OWNkYTA0MjA1ZDI4MjE5ZmIyMGJlYjM2MjY2NTBjM2EzNGI5NmIxMDEzYjJmOTFjM2FhNDliYWQ5Y2M5YjdlYWU0MWJhZTU2YzRiYmM3'}

③.Construire chaque fragment du mot-clé cookies séparément sous la forme de paires clé-valeur


cookies = {
    
    
'BAIDUID': '963EC08DDD8CA5647A50D2ED99D0CCF2:SL=0:NR=10:FG=1',
'BAIDUID_BFESS': '963EC08DDD8CA5647A50D2ED99D0CCF2:SL=0:NR=10:FG=1',
'ZFY': 'fVb9op8tO3yhpq3TJlvkhdkE8iS3bLYoA53APCw5awg:C',
'1.0.1_MDJhNTY0OGI3NzhkNjMxNGE5ZWY3MzNiNGI3OGJiMjRmYjJlNGQ2NThkYjYyNzc5OTllMWEwZWFiMDM5MjBlODYwOWI4Y2M0Zjc5NWNkMGFjNmI5OGM2NDkwOTBmNjAxYzVjZTdiMTc3ZjkxMWQ4ZTM0OWNkYTA0MjA1ZDI4MjE5ZmIyMGJlYjM2MjY2NTBjM2EzNGI5NmIxMDEzYjJmOTFjM2FhNDliYWQ5Y2M5YjdlYWU0MWJhZTU2YzRiYmM3',
......
}

2. Lorsque vous utilisez le premier type de cookies et qu'aucune donnée n'est renvoyée, utilisez le deuxième type, et si le deuxième type ne fonctionne pas, utilisez le troisième type.

4. L'utilisation de vérifier


import requests
requests.packages.urllib3.disable_warnings()  # 忽略关闭证书以后引发的警告

url = 'https://data.stats.gov.cn/'
# verify=False 发送请求的时候不校验证书
response = requests.post(url=url, verify=False)
print(response.text)

"""
requests.exceptions.SSLError:  网站没有证书引发的报错, 因为requests模块会默认校验证书
"""

1. Certains sites Web vérifieront le certificat du site Web lors de leur visite, et ils ne visiteront pas sans le certificat du site Web, donc pour le moment, nous utiliserons verify=False pour interdire l'accès au certificat, afin d'accéder au site Web.

Cinq. L'utilisation du délai d'attente


import requests
url = 'https://github.com/'
# timeout=1  设置请求时间,单位秒, 超过时间就会报错, 可以通过异常捕获取处理
response = requests.post(url=url, timeout=0.1)
print(response.text)


1. Lorsque nous visitons certains sites Web, l'accès sera très lent. À ce stade, nous pouvons utiliser le délai d'attente pour filtrer ces sites Web.

Six. L'utilisation de allow_redirects


import requests

url = 'http://github.com/'
# allow_redirects=False 阻止重定向
response = requests.post(url=url, allow_redirects=False)
print(response.status_code)
print(response.url)


1. Il s'agit d'un paramètre permettant la redirection.

7. Il y a deux autres choses qui sont fondamentalement inutiles. Si vous en avez besoin, vous pouvez trouver les informations vous-même.

Je suppose que tu aimes

Origine blog.csdn.net/m0_74459049/article/details/130764201
conseillé
Classement