关于爬虫_v1.0

感谢梁斌老师和茫羽行大哥    梁老师的小象学院课程 以及茫羽行OSCHINA的博客https://my.oschina.net/u/3914536

首先最重要的导入库

import requests
from bs4 import BeautifulSoup

然后是引入网址到url中

url='xxx.html'
url = 'http://www.air-level.com/air/' + city_pinyin

利用requests中的get函数得到网页内容,保存在自定义变量中比如r或者web_data

30秒内    

wb_data=requests.get(url,timeout=30)

get可以夹带用户名和密码信息

#headers={'User-Agent':xxx,'Cookie':xxx}
#wb_data=requests.get(url,headers=headers)

#wb_data所保存的信息
'''
wb_data.text-网页的代码
wb_data.status_code-状态码
wb_data.url-请求url
wb_data.headers-头信息
wb_data.cookies-cookie信息
wb_data.content-字节流的形式
'''

然后利用BeautifulSoup解析,保存在soup变量中,记得加text来改变形式,解析方式为lxml

soup = BeautifulSoup(web_data.text,'lxml')

 find如果直接找出来的是()从头数第几个字符位置

 如果没有class直接拿到中间内容,内容依照list的形式排列开来

soup = BeautifulSoup(r.text,'lxml')
td_list = soup.find_all('td')

对于想要某个div下 重复的class 因为find和find_all拿到的是list,可以用索引来实现

比如:

city_div = soup.find_all('div',{'class': 'bottom'})[1]
#意义为:拿到div这个分割方式下class类下第二个bottom里面的内容

猜你喜欢

转载自www.cnblogs.com/EdedZhang/p/11234391.html