爬虫的知识

在我的理解下,Python的主要用途就是三点:一是做单机处理程序。(文本、数字、文件)。二是WEB程序(django/flask。)三是爬虫。

要做爬虫,就离不了这两个第三方库:一是requests,这个大家都熟悉,要使用它来模拟浏览器的GET、POST操作,安装也比较简单,直接pip3 install requests即可。

注:如果完成后,无法正常使用,提示没有get参数 时,可以到安装目录下找一找,看有没有一个文件夹的名字是requests,如果有的话,改名、删除即可正常使用。

二是beautifulsoup, BeautifulSoup是python的一个第三方库,在爬虫中,起着网页解析器的作用,可以对下载好的网页进行页面元素分析,提取出有价值的数据。安装j

比较简单,直接pip3 install bs4 ,(这里注意,不能直接安装beautifulsoup),导入时from bs4 import BeautifulSoup即可。

看一下这段代码,就是到博客园中,获取某一页关于PYTHON的文件列表,最终生成的列表中,存储了标题和链接。

import requests
from bs4 import BeautifulSoup
url="https://www.cnblogs.com/cate/python/"

res=requests.get(url)
# with open('pc1.html','w',encoding='utf-8') as f:
#     f.write(res.text)
#
soup=BeautifulSoup(res.text,"html.parser")
res_div=soup.find(name='div',attrs={'id':"post_list"})
url_list=res_div.find_all(name='h3')
data_list=[]
for item in url_list:
    title=item.text
    link=item.find(name='a',attrs={'class':"titlelnk"}).attrs.get('href')
    data_list.append({'title':title,'link':link})
print (data_list)

猜你喜欢

转载自www.cnblogs.com/lzszs/p/10658797.html
今日推荐