python3 获取微博热搜词及热搜词链接 - 代码天地

python3 获取微博热搜词及热搜词链接

其他 2018-08-14 05:09:02 阅读次数: 0

本文实现的是从微博热搜榜http://s.weibo.com/top/summary中采用正则表达式获取微博热搜词及其链接并存储成list形式的功能。

几个注意事项：

1 微博加入了“25”混淆进行反爬虫，以热搜词'迪丽热巴粉丝杨幂'为例，获取到的转码前的热搜词是：
%25E8%25BF%25AA%25E4%25B8%25BD%25E7%2583%25AD%25E5%25B7%25B4%25E7%25B2%2589%25E4%25B8%259D%2B%25E6%259D%25A8%25E5%25B9%2582
注意不可以直接replace('25','')，因为热搜词中本身就可能包含‘25’这个数，因此采用replace('%25', '%')进行替换。替换后效果：
%E8%BF%AA%E4%B8%BD%E7%83%AD%E5%B7%B4%E7%B2%89%E4%B8%9D%2B%E6%9D%A8%E5%B9%82

2 热搜词中常包括空格，而url中会自动将空格（%20）转为+号（%2B），因此需要执行.replace('+', ' ')，否则直接从url中提取会导致'迪丽热巴粉丝杨幂'变成'迪丽热巴粉丝+杨幂'

3 urllib.parse.unquote(resou_keyword, encoding="utf8")可以把看不懂的%E8%BF%AA%E4...转为'迪丽热巴粉丝杨幂'

直接上代码：

import re, urllib, requests

# 获取微博实时热搜榜
def get_resou():
    resou_list = []
    resou_html_text = requests.get('http://s.weibo.com/top/summary', ).text
    resou_re = re.compile(r'td class=\\"td_05\\"><a href=\\"\\/weibo\\/(.*?)&Refer=top\\"')
    resou_origin = resou_re.findall(resou_html_text)
    for resou_keyword in resou_origin:
        resou_keyword = resou_keyword.replace('%25', '%')  # 微博使用25进行反爬虫
        resou_url = ('http://s.weibo.com/weibo/' + resou_keyword)
        resou_keyword = urllib.parse.unquote(resou_keyword, encoding="utf8")
        resou_keyword = resou_keyword.replace('+', ' ')  # url中空格会被自动转为+号，故此处需要重新转为空格
        resou_list.append([resou_keyword, resou_url])
    print(resou_list)
    return resou_list


if __name__ == '__main__':
    get_resou()

猜你喜欢

转载自blog.csdn.net/sunyusunyu2011/article/details/81234101

python3 获取微博热搜词及热搜词链接

Python获取微博热搜的方法

Python微博热搜自动获取及保存成csv

Python用requests库+BeautifulSoup库+re库获取微博热搜（有详解）

使用2句python代码获取微博热搜榜表格版

Python网络爬虫-爬取微博热搜

Python网络爬虫之爬取微博热搜

Python爬取新浪微博热搜榜

Python爬虫抓取微博热搜榜

用python爬取微博热搜数据并保存

python爬虫知乎热榜、微博热搜并发送邮件至邮箱

Python爬虫实战(基础篇)—1获取微博TOP10热搜(附完整代码)

微博java正则匹配热搜页面热搜词+还原中文

分析了2020年3万多条的微博热搜，我看到了什么

python 爬取微博实时热搜，并存入数据库实例

利用python爬取微博热搜榜制作词云图

python爬虫爬取微博知乎热搜榜

Python定时爬虫爬取微博热搜数据 pyecharts动态图展示

Python基于微博的舆情分析、热搜可视化系统

python +flask 制作一个实时热搜采集接口加入百度热搜和微博热搜并实时滚动代码嵌入到你的帝国CMS或WP博客或任意框架网站

python爬取微博热题-官宣赵丽颖并做词云分析

3 分钟创建 Serverless Job 定时获取新闻热搜！

python获取某乎热搜数据并保存成Excel

python获取度娘热搜数据并保存成Excel

爬取微博热搜榜

网络爬虫（微博热搜榜单）

微博热搜选股策略

python3词云使用

python3 wordcloud词云

Python3 词云详解

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)