Python3 selenium 网页table数据抓爬

项目介绍

本项目是对一些复杂的报表解析爬取列表数据,以国家网为例(大家最好换一个网站),会自动根据数据库配置text(数据库为字典方式),进行
点击树形结构,然后input下拉框内时间,并选择省(时间和省由配置文件配置),但下拉列表的xpath没有数据库化,现阶段是写死在代码中
项目开始由递归进行判定是否为最后一层,字典表可配置N层,看你网站的复杂度

加入QQ群:943841699

源码地址:https://gitee.com/xywdy/table_creeper.git

技术

Python3.6
selenium(如果对selenium不了解,可参考博客
https://blog.csdn.net/wudaoshihun/article/details/82982596
https://blog.csdn.net/wudaoshihun/article/details/82990670
https://blog.csdn.net/wudaoshihun/article/details/82990920
https://blog.csdn.net/wudaoshihun/article/details/82947091)

本项目采用谷歌浏览器内核,需安装谷歌及匹配的driver
参考:https://blog.csdn.net/wudaoshihun/article/details/82353056
并且linux无界面,需要配置无界面方式进行爬取
参考:https://blog.csdn.net/wudaoshihun/article/details/82948013

使用说明

1. 把resource文件下SQL拷贝并导入数据库
2. 配置config.py
3. 根据技术目录指引安装完毕
4. 现阶段只有一张表,class_type为类型,若不同类型网站,则class_type不同,
group_code为分组编码,可根据00000000,每个位代表不同含义,与自己库中的分类对应。

 

猜你喜欢

转载自blog.csdn.net/wudaoshihun/article/details/83592681