python3 获取微博热搜词及热搜词链接

本文实现的是从微博热搜榜http://s.weibo.com/top/summary中采用正则表达式获取微博热搜词及其链接并存储成list形式的功能。

几个注意事项:

1 微博加入了“25”混淆进行反爬虫,以热搜词'迪丽热巴粉丝 杨幂'为例,获取到的转码前的热搜词是:
%25E8%25BF%25AA%25E4%25B8%25BD%25E7%2583%25AD%25E5%25B7%25B4%25E7%25B2%2589%25E4%25B8%259D%2B%25E6%259D%25A8%25E5%25B9%2582
注意不可以直接replace('25',''),因为热搜词中本身就可能包含‘25’这个数,因此采用replace('%25', '%')进行替换。替换后效果:
%E8%BF%AA%E4%B8%BD%E7%83%AD%E5%B7%B4%E7%B2%89%E4%B8%9D%2B%E6%9D%A8%E5%B9%82

2 热搜词中常包括空格,而url中会自动将空格(%20)转为+号(%2B),因此需要执行.replace('+', ' '),否则直接从url中提取会导致'迪丽热巴粉丝 杨幂'变成'迪丽热巴粉丝+杨幂'

3 urllib.parse.unquote(resou_keyword, encoding="utf8")可以把看不懂的%E8%BF%AA%E4...转为'迪丽热巴粉丝 杨幂'

直接上代码:

import re, urllib, requests

# 获取微博实时热搜榜
def get_resou():
    resou_list = []
    resou_html_text = requests.get('http://s.weibo.com/top/summary', ).text
    resou_re = re.compile(r'td class=\\"td_05\\"><a href=\\"\\/weibo\\/(.*?)&Refer=top\\"')
    resou_origin = resou_re.findall(resou_html_text)
    for resou_keyword in resou_origin:
        resou_keyword = resou_keyword.replace('%25', '%')  # 微博使用25进行反爬虫
        resou_url = ('http://s.weibo.com/weibo/' + resou_keyword)
        resou_keyword = urllib.parse.unquote(resou_keyword, encoding="utf8")
        resou_keyword = resou_keyword.replace('+', ' ')  # url中空格会被自动转为+号,故此处需要重新转为空格
        resou_list.append([resou_keyword, resou_url])
    print(resou_list)
    return resou_list


if __name__ == '__main__':
    get_resou()

猜你喜欢

转载自blog.csdn.net/sunyusunyu2011/article/details/81234101
今日推荐