Python爬虫之 动态HTML

动态HTML

动态HTML介绍

  • JavaScript
  • jQuery
  • Ajax
  • DHTML
  • Python采集动态数据
    • 从JavaScript代码入手采集
    • Python第三方库运行JavaScript,直接采集你在浏览器看到的页面

Selenium + PhantomJS

  • Selenium:web自动化测试工具
    • 自动加载页面
    • 获取数据
    • 截屏
    • 安装:pip install selenium==2.48.0
    • 官网
    • 中文文档
  • PhantomJS(幽灵)
    • 基于webkit 的无界面浏览器
    • 官网
  • Selenium 库有一个WebDriver的API
  • WebDriver可以跟页面上的元素进行各种交互,用它可以来进行爬取
  • 案例v39
'''
案例v39
通过WebDriver操作百度并进行查找
'''

猜你喜欢

转载自blog.csdn.net/qq_29339467/article/details/105342239