requests模块爬取数据操作流程

一,requests模块介绍:

是一个可以模拟浏览器的请求,用于网络访问的第三方模块,其实类似的模块有很多,比如urllib,urllib2,比起urllib,requests模块的api更加便捷(本质就是封装了urllib3)
注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求

二,安装requests模块的配置

anaconda环境变量:
path环境里面的这些值,就是为了在cmd终端你可以找到一些可执行文件。
python 在path变量去找每个值,就相当于每一个目录,在里面找python.exe
配置环境变量:我们有两个需要配置的地方:
1,配置python.exe : 根目录C:\Anaconda3-----为了让系统找到python.exe
2,配置pip:我们要配置C:\Anaconda3\Scripts来找pip.exe
所以要把他放在最上面。
打开cmd输入如下代码查找python.exe 与pip的path情况:
where python
where pip

三,requests的安装

pip install requests

四,requests模块的使用方法:

1.因为请求有两类。所以requests有两个方法,get和post。
2.使用步骤:
	1.导包
		import requests
	2.确定基础url(确定带爬取url是啥)
		base_url = 'https://www.baidu.com'
	3.发起请求,获取响应
		resposne = requests.get(base_url)
3.get方法的参数
	requests.get(
			url = 请求的url,
			headers = 请求头字典,
			params=  '请求参数’,
			timeout='超时时长'
	
	)
4.res
	响应包含:状态行,响应头,空行,响应正文。
	(1)响应内容:
		字符串类型:res.text
		二进制类型(bytes):res.content
			二进制类型的作用:进行乱码问题的解决;
						print(response.content.decode('utf-8'))
							图片视频等内容的下载。
 (2)响应内容的编码
	 乱码的第一种解决方法:res.encoding
 		乱码的第二种解决方法:res.text其实是使用的res.encoding设置 编码格式来把响应内容转换字符串。如果res.text出现乱码,解决办法就是给res.encoding设置正确的编码格式。
	(3)获取响应json内容。
		res.json()
	 ( 4 ) res.status_code :获取状态码
	 ( 5 ) res.url:获取请求的url
	 ( 6 ) res.headers:获取响应头

猜你喜欢

转载自blog.csdn.net/Smile_Lai/article/details/101312179