基于Python爬取天眼查网站的企业信息

爬虫简介

这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进

python版本:python2或Python3 两个版本的代码都有

编码工具:pycharm

数据存储:mysql

爬虫结构:广度爬虫

想要学习Python?Python学习交流群:984632579满足你的需求,资料都已经上传群文件,可以自行下载!

爬虫思路:


先获取需要采集信息的公司:

1、从数据库中获取

2、获取字段:etid,etname

3、将获取的数据存储的状态表中

4、从状态表中获取数据,并更新状态表

拼接初始URL:

1、将etname和初始url进行拼接,获得初始网址

2、将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

请求解析初始一级页面:

1、验证查询的公司是否正确(??)

2、获取二级页面url

3、将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

请求解析二级页面:

1、获取的信息待定

将公司的信息存储到数据库中:

1、建表

2、存储信息

看一下部分的结果图:

GitHub地址:https://github.com/huquan1996/PythonSpider/tree/master/Item4%EF%BC%9Aspider_tianyancha

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/88842864