感谢梁斌老师和茫羽行大哥 梁老师的小象学院课程 以及茫羽行OSCHINA的博客https://my.oschina.net/u/3914536
首先最重要的导入库
import requests from bs4 import BeautifulSoup
然后是引入网址到url中
url='xxx.html' url = 'http://www.air-level.com/air/' + city_pinyin
利用requests中的get函数得到网页内容,保存在自定义变量中比如r或者web_data
30秒内
wb_data=requests.get(url,timeout=30)
get可以夹带用户名和密码信息
#headers={'User-Agent':xxx,'Cookie':xxx} #wb_data=requests.get(url,headers=headers) #wb_data所保存的信息 ''' wb_data.text-网页的代码 wb_data.status_code-状态码 wb_data.url-请求url wb_data.headers-头信息 wb_data.cookies-cookie信息 wb_data.content-字节流的形式 '''
然后利用BeautifulSoup解析,保存在soup变量中,记得加text来改变形式,解析方式为lxml
soup = BeautifulSoup(web_data.text,'lxml')
find如果直接找出来的是()从头数第几个字符位置
如果没有class直接拿到中间内容,内容依照list的形式排列开来
soup = BeautifulSoup(r.text,'lxml') td_list = soup.find_all('td')
对于想要某个div下 重复的class 因为find和find_all拿到的是list,可以用索引来实现
比如:
city_div = soup.find_all('div',{'class': 'bottom'})[1] #意义为:拿到div这个分割方式下class类下第二个bottom里面的内容