爬虫入门第一课(爬取Chrome浏览器豆瓣部分数据,关于chrome webdriver的安装,以及代码编写,个人研究,非商用)

爬虫入门第一课-webdriver


如何使用

  1. 查看google的版本:浏览器输入 chrome://version
  2. 在该网址中选择相应版本的驱动器:chromedriver
  3. 下载后解压将chromedriver.exe复制到chrome安装文件夹下,即chrome.exe所在的文件夹。
  4. pip install selenium第三方库就可以使用了

如果是macbook,请将下载后的mac版本的驱动器复制到**/usr/local/bin**文件夹下,此情况下webdriver.Chrome()中不用添加驱动器路径。


附上其他浏览器驱动下载链接:

FireFox驱动器链接
Safari驱动器链接


代码

代码非本人编写,后续会进行改动,这次主要是学习一下。

from selenium import webdriver
import time
import pandas as pd

driver = webdriver.Chrome('C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')
driver.maximize_window()

print(driver.window_handles[0])

driver.switch_to_window(driver.window_handles[0])
url = 'https://movie.douban.com/tag/#/?sort=U&range=2,10&tags=%E7%94%B5%E5%BD%B1,2010%E5%B9%B4%E4%BB%A3,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86'
js='window.open("'+url+'")'
driver.execute_script(js)

driver.close()
driver.switch_to_window(driver.window_handles[0])
while True:
   try:
     js="var q=document.documentElement.scrollTop=10000000"
     driver.execute_script(js)
     driver.find_element_by_class_name('more').click()
     time.sleep(2)
   except:
     break

name = [k.text for k in driver.find_elements_by_class_name('title')]
score = [k.text for k in driver.find_elements_by_class_name('rate')]
url = [k.get_attribute('href') for k in driver.find_elements_by_class_name('item')]
a = {'name':name,'score':score,'url':url}

df = pd.DataFrame.from_dict(a, orient='index')
df.transpose()
df.to_excel('电影名称2.xlsx')

Excel结果

在这里插入图片描述


2019.11.01
希望能帮到你。


猜你喜欢

转载自blog.csdn.net/jsk_learner/article/details/102859213