关于使用selenium+lightbody bmp+HttpClient 抓取企查查编程分享-前言 - 代码天地

关于使用selenium+lightbody bmp+HttpClient 抓取企查查编程分享-前言

其他 2018-07-26 16:45:17 阅读次数: 0

-首先打个标记等我把要抓的数据抓完之后再一一分享，先上几个截图。

1.已抓取到按条件的数据。这是躺过一周的坑，得到的结果

2.根据某些条件可能会得到重复的数据，例如：销售关键字与贸易关键字可能会得到一些重复的数据，则不存数据库。

=========== 等老弟我把数据爬完就跟大家一一分享代码，以及我爬数据时候遇到的关键坑。

现在分享主要怕查查大哥发现，把这种途径封掉，就麻烦了！

-------------------- 2018-03-30 日志 --------------------

/**
* 数据清理by 企业 name
* 梳理：
* 已开始用url+id作为详细信息查询，发现没过不了20条就要输入验证码，说明这一块控制的比较严格
* 然后过了一天之后发现直接使用名字查询即使是时间很短0.8-1 s 也没被拦截
* 半小时后发现使用名字查询也出现需要验证码的情况，立马改用天眼查进行查询，刚开始用名字查询也没有问题，以为这样就大功告成坐等收货了
* 过了一会发现出现了跟企查查一样的效果，现在在出现需要验证码后，重新请求一下首页，另外在进行正常操作发现不需要输入验证码也可以。
* 然后继续干我其他的事情并断点观察着；
* 实践证明天眼查也管的很严格了，现在准备试一下m.tianyancha.com;等待效果
* 2018年3月30日 15:42:00：又挂彩了，继续还一种方式，将cookie修改后，将查询间隔时间变大到4秒一次查询
* 2018-3-30 16:14:57 ：事实证明，我被天眼查封ip了。告一段落回到企查查吧！
*/

猜你喜欢

转载自blog.csdn.net/y243234469/article/details/79746233

关于使用selenium+lightbody bmp+HttpClient 抓取企查查编程分享-前言

企查查登录验证(selenium)

Python Selenium Chrome Headless 爬取企查查数据

Springboot与Selenium合体变蜘蛛爬企查查

selenium模拟输入点击爬取企查查信息

好程序员Java教程分享使用HttpClient抓取页面内容

使用HttpClient和Jsoup定向抓取数据

selenium 轻松模拟登录企查查，获取企业详细信息链接

关于httpclient

企查查接口

爬虫-企查查

requests+selenium 爬取企查查网，1000+条数据轻轻松松

HttpClient抓取网页实例

HttpClient使用

HttpClient 使用

HttpClient的使用

关于BMP文件格式的详解

Nebula Graph 在企查查的应用

使用selenium爬虫抓取数据

使用selenium抓取信息

使用httpclient做接口测试时，处理header实例分享

关于android使用httpclient上传的问题

关于使用httpclient的心得与体会

HttpClient 实例分享

关于HttpClient中文乱码

关于HttpClient的总结

关于httpclient的终结

关于HttpURLConnection与HttpClient

关于httpclient的方法

风火编程--selenium使用

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)