selenium库和PhantomJS浏览器的安装与简单使用

selenium库和PhantomJS浏览器的安装与简单使用

1.安装selenium包

pip install selenium

   Selenium 可以根据我们的指令,让浏览器自动加载页面,
   获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。

   Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。
   但是我们有时候需要让它内嵌在代码中运行,所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。

2.官网下载phantomJS浏览器

PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,
因为不会展示图形界面,所以运行起来比完整的浏览器要高效。

如果我们把 Selenium 和 PhantomJS 结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理
JavaScrip、Cookie、headers,以及任何我们真实用户需要做的事情。

PhantomJS 只能从它的官方网站 http://phantomjs.org/download.html 下载
下载好解压即可,记住解压路径
我解压在:C:\Program Files (x86)\phantomjs-2.1.1-windows\phantomjs-2.1.1-windows
添加系统环境变量:C:\Program Files (x86)\phantomjs-2.1.1-windows\phantomjs-2.1.1-windows\bin\
终端运行:phantomJS --version,如果出现版本号即安装成功

3.在终端IPython下调试,使用一些基本属性方法

In [1]: from selenium import webdriver

In [2]: driver = webdriver.PhantomJS() # 使用浏览器,已配置了环境变量可以直接使用

In [3]:driver.get("http://www.baidu.com/") # 打开百度

In [4]: driver.save_screenshot("baidu.png") # 获取截图,保存为baidu.png
Out[4]: True                               # true表示截图获取成功

# 注意:windows下  截图默认保存在 C:\user\user_name  你的用户目录下

In [6]: from selenium.webdriver.common.keys import Keys     # 导入common包可以操作html标签

In [7]: driver.find_element_by_id("kw").send_keys(u"美女")   # 通过审查元素发现input标签中的输入搜索内容保存在"kw"中

In [8]: driver.save_screenshot("美女.png")  # 保存截图
Out[8]: True

In [9]: print(driver.page_source) #获取源码

In [10]: driver.get_cookies()  # 获取当前页面cookies

In [11]: driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a') # ctrl+a 全选输入框内容

In [12]: driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')   # ctrl+x 剪切输入框内容

In [13]: driver.find_element_by_id("su").send_keys(Keys.RETURN)    # 模拟Enter回车键

In [14]: driver.find_element_by_id("kw").clear()   # 清除输入框内容

In [15]: driver.quit()     # 关闭浏览器

如果你和我有共同爱好,我们可以加个好友一起交流!

猜你喜欢

转载自blog.csdn.net/ywk_hax/article/details/82556679