使用python+selenium+PantomJs+javascript爬取专利数据 - 代码天地

使用python+selenium+PantomJs+javascript爬取专利数据

其他 2018-12-17 10:11:03 阅读次数: 0

版权声明：本文为博主原创文章，转载请注明出处。 https://blog.csdn.net/will4906/article/details/68955619

环境准备

安装python3.5
selenium
下载PantomJs.exe

爬取目标

专利网站
爬取专利名，申请人，发明人等

爬取过程

通过selenium获取PhantomJs的webdriver实例
- 先导入webdriver的包
  
  from selenium import webdriver
- 获取实例
  
  driver = webdriver.PhantomJS(executable_path=’.\res\phantomjs.exe’)
其中，executable_path为PhantomJs.exe的位置。
连接网址

driver.get(url_path)
填写查询信息
- 通过chrome查看了元素的dom，如图：
- 根据显示编写js代码，然后用webdriver执行脚本，举个例子
driver.execute_script(“document.getElementById(\”tableSearchItemIdIVDB021\”).setAttribute(\”value\”,\”” + inventor + “\”)”)
- 填写完相应参数后，提交表单。
采集数据
- 根据chrome获取各个参数的路径。如图
  
  扫描二维码关注公众号，回复： 4538521 查看本文章
- 通过webdriver执行js脚本，获取各参数，举个例子
  
  driver.execute_script(“return document.getElementsByClassName(\”item\”).length;”)
采集过程中，可能会遇到各种各样的问题，比方说：
- 查询超时，需要刷新浏览器，可用
  
  driver.refresh()
- 可能需要判断页面中含有什么字符串，可通过一下代码获取：
  
  driver.page_source
- 关闭浏览器
  
  driver.quit()

代码资源

https://github.com/will4906/PatentCrawler

代码中含有将xlwt,xlrd和xlutils用工厂模式封装的excel操作模块，可供参考。

猜你喜欢

转载自blog.csdn.net/will4906/article/details/68955619

使用python+selenium+PantomJs+javascript爬取专利数据

python 使用selenium和requests爬取页面数据

Python使用Selenium爬取淘宝异步加载的数据方法

Python爬虫实战使用scrapy与selenium来爬取数据

Python：【2】使用Selenium爬取多页表格数据

python selenium 爬取领英的数据

使用selenium爬取网站动态数据

使用selenium爬取斗鱼直播数据

selenium使用代理爬取数据

python 爬取，selenium

Python3使用selenium爬取斗鱼直播平台数据

python3使用Selenium+Chrome+BeautifulSoup爬取国家统计局数据

吴裕雄--天生自然PYTHON爬虫：使用Selenium爬取大型电商网站数据

python + selenium爬取淘宝

python selenium爬取音频

Python——selenium爬取学科

Python Selenium Chrome Headless 爬取企查查数据

selenium+python爬取数据跳转网页

python+selenium爬取京东商品数据

python selenium爬取街舞网站视频数据

Python爬虫Selenium爬取matlab文档数据

使用python+selenium爬取京东商品列表

python使用selenium爬取js加密的网页

Python使用BeautifulSoup与selenium爬取Boos直聘

Python 使用selenium爬取方天下，房源评论信息

scrapy使用PhantomJS和selenium爬取数据

使用selenium登录网站并爬取数据保存到excel

使用selenium爬取球探网比赛数据

爬取动态页面实践 | selenium | JavaScript

Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、编辑将数据存储入MongoDB数据库

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)