Python用requests库+BeautifulSoup库+re库获取微博热搜
import requests
from bs4 import BeautifulSoup
import re
def main():
f=open('pythontxt\\weibohot.txt','w') #以写入的方式打开文本
r=requests.get("https://s.weibo.com/top/summary") #获取链接
r.raise_for_status() #检查状态
r.encoding=r.apparent_encoding #改变编码形式
html=r.text #获取文本
soup=BeautifulSoup(html,"html.parser") 解析获取到的文本
listm=soup.find_all('a',attrs={'target':"_blank"}) # #查找tarfet为_blank的全部的a,这里的listm为一个列表
print("{:^4}\t{:^20}\t".format("排名","内容"),file=f) #将输出的结果写入文件
for i in range (51): #这里括号里本来应该是上面listm的长度,但是有几个不符合情况我就去掉不合适的了
match=re.search(r'(>)(.*)(<)',str(listm[i])) #这里是使用正则表达式,search方法re.search(pattern, string, flags=0),所以我将listm[i]改变为str类型
a=match.group(2) #用group()方法取出内容
print("{:^4}\t{:20}\t".format(i+1,a),file=f) #输出结果
f.close()#关闭文件
main()
如果使用的是IDLE没有这些库,则需要安装,管理员模式启动cmd,然后输入
pip install re 则安装re库,其他库一样把re改变即可
获取的结果如下:
………………………………
一定要多多练习哈