python requests模块教程及实例(get方法)



——————来自某潮汕人的菜鸟教程

一、如何安装requests?

pip install requests

二、requests.get方法的使用:

要爬取的网站:“https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8”

爬取任务:搜索结果的标题名称


代码:

import requests

import re

res = requests.get(url='https://b.faloo.com/l/0/1.html?t=1&k=%CB%D9%B6%C8')

res_text=res.text

result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)

print(result)


结果:['修炼速度几何倍', '速度与激情之暴风车神', '速度与激情之赏金猎人', '速度与激情之二货降临', '速度与激情之杀手来临', '假面骑士之暗', '海贼之超神海贼', '妖尾之速度之舞', '神奇宝贝之穿越小智的爱情', '速度与激情:罪犯系统', '速度之王', '速度与激情之有神']


代码讲解:



@requests.get()是获取一个网站的源代码,得到的结果与你打开一个网站查看源代码的结果一致



@requests.get返回的res可以有很多种方法,在这里一 一讲解

1、res.text  是返回网页的响应数据,并按照机器所认为的最大可能去解码比如utf-8

2、res.content是返回网页的相应数据,但不进行解码,开发者可以根据实际进行某种编码格式进行解码。一般而言,编码格式在网页的源代码里面有标注,如下图



这样子我就可以把代码改为"

res_text=res.content.decode('gb2312')#效果一样


3、res.status_code  返回访问网站的状态码,正常访问为200(很重要的这个,后期可以发下)

4、res.url  返回访问网站的url地址

5、res.cookies 返回访问网站后的cookies



@result=re.findall('\" title\"(.*?)\"><img',res_text,re.DOTALL)

在爬虫里面用得最频繁最好用的是findall,re.DOTALL是为了匹配回车符号



猜你喜欢

转载自blog.csdn.net/m0_37959925/article/details/79981512
今日推荐