python3.6 微信公众号抓爬

项目介绍



本项目针对微信公众号文章爬取,通过微信公众号名称或微信号,爬取发布的文章,并对文章进行去重操作
若有其他问题请加群943841699,共同探讨技术
本项目借鉴很多其他项目,就不一一列出

 

源码地址

https://gitee.com/xywdy/wechat_creeper

若对项目有帮助,记得捐赠打赏偶

使用说明

1. 请安装python3.X环境,安装教程可参考
    linux:https://blog.csdn.net/wudaoshihun/article/details/82944424
    window:https://blog.csdn.net/wudaoshihun/article/details/82353224
    如果以前版本是2.X,请参考:https://blog.csdn.net/wudaoshihun/article/details/82812484

2. 安装插件:请使用pip3进行安装,例如:pip3 install pymysql
    需安装插件如下:requests 、pymysql、lxml==3.7.3、Pillow、werkzeug 、selenium、pyquery、bs4、
    schedule(用做定时任务,我并没有使用python插件中定时任务,使用linux crontab)、os、urllib,
    其中 lxml因使用了etree,所以需要指定版本,最新版本中并没有兼容etree,若您修改了这部分代码,请联系我
3. 然后导入数据库,在resources目录下
    (1) wechat_list 微信列表,添加微信公众号名称或微信号
    (2) wechat_info_list 待爬列表,运行python3 wechat_read_add.py,
    即可把wechat_list数据加入待爬列表(其中wechat_read_add不能直接运行,可运行test.py)
    (3) 运行 python3 articles_update_exec.py即可把待爬微信公众号进行抓爬公众号文章任务,我是直接把文章同步到其他
    服务,并保存到article_info表中
    (4)已经实现了自动去重策略
    (5)article_statistics是统计表,暂时没有去维护,若补全这部分内容,请联系我
    (6)项目没有使用代理,而验证码部分使用了收费的网站,若有更好的选择或补全了代理,请联系我
4. 项目配置文件修改
    utils包下config,修改自己的数据库地址及其他配置即可

猜你喜欢

转载自blog.csdn.net/wudaoshihun/article/details/83552027