python爬取微博热门消息(二)—— configs中参数的设置及程序执行过程

这一节,主要讲述配置文件configs.py参数的含义,以及cookie的获取方式。

感兴趣的小伙伴可以 收藏 + 关注 哦!


另外,关于本项目的效果展示,以及教程,点击一下链接即可。

python爬取微博热门消息(一)——效果展示

python爬取微博热门消息(三)—— 爬取微博热门信息的功能函数

python爬取微博热门消息(四)—— 完整代码


目录

一、常用参数

二、执行过程

三、代码


一、常用参数

1、url

url 即为我们热搜网址,是我们进行爬取的网址,该网址界面如下:

2、flag

flag 为bool型,取值为 True 或 False,是否爬取微博热搜所有的内容

  • True: 爬取微博热搜的所有内容
  • False: 爬取微博某个话题的内容

3、index

index为int型,取值为[0,50]。因为一页有50个热搜+top。爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息

4、str_time

当前时间, such as 2021-01-11_1551

二、执行过程

1、爬取所有内容

将参数flag设置为 True,运行即可

2、爬取特定内容

我们以‘ 6:迪丽热巴双马尾 ’为例

(1) 先将参数flag设置为 True,直到 information --> 2021-01-11_1746 --> topic.txt 文件生成即可停止运行;

(2) 再修改以下参数:

    -- flag: False

    -- index: 6

    -- str_time:  2021-01-11_1746

注:有时候我们爬取下来的内容乱码,我们只需多次爬取乱码的热搜话题即可。 

三、代码

configs.py

import argparse

def parse_args():
    parser = argparse.ArgumentParser(description='trending topic of microblog')

    # 热搜网址
    parser.add_argument('--url', default='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6')

    # 全部内容 or 特定内容
    """
    flag: True or False,是否爬取微博所有的内容
    index: 爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息
    str_time: 当前时间, such as 2021-01-11_1551
    """
    parser.add_argument('--flag', default=False)
    parser.add_argument('--index', default=6)
    parser.add_argument('--str_time', default='2021-01-11_1746')

    return parser.parse_args()

猜你喜欢

转载自blog.csdn.net/weixin_45666660/article/details/112534455