Python用requests库+BeautifulSoup库+re库获取微博热搜(有详解)

Python用requests库+BeautifulSoup库+re库获取微博热搜

import requests
from bs4 import  BeautifulSoup
import re
def main():
        f=open('pythontxt\\weibohot.txt','w')  #以写入的方式打开文本
        r=requests.get("https://s.weibo.com/top/summary")  #获取链接
        r.raise_for_status()          #检查状态
        r.encoding=r.apparent_encoding      #改变编码形式
        html=r.text             #获取文本
        soup=BeautifulSoup(html,"html.parser")     解析获取到的文本
        listm=soup.find_all('a',attrs={'target':"_blank"}) # #查找tarfet为_blank的全部的a,这里的listm为一个列表
        print("{:^4}\t{:^20}\t".format("排名","内容"),file=f)  #将输出的结果写入文件
        for i in range (51):   #这里括号里本来应该是上面listm的长度,但是有几个不符合情况我就去掉不合适的了
                match=re.search(r'(>)(.*)(<)',str(listm[i]))  #这里是使用正则表达式,search方法re.search(pattern, string, flags=0),所以我将listm[i]改变为str类型              
                a=match.group(2) #用group()方法取出内容
                print("{:^4}\t{:20}\t".format(i+1,a),file=f) #输出结果
        f.close()#关闭文件
main()

如果使用的是IDLE没有这些库,则需要安装,管理员模式启动cmd,然后输入
pip install re 则安装re库,其他库一样把re改变即可
获取的结果如下:

在这里插入图片描述
………………………………
在这里插入图片描述
一定要多多练习哈

发布了9 篇原创文章 · 获赞 23 · 访问量 1259

猜你喜欢

转载自blog.csdn.net/weixin_43920952/article/details/104124098