爬取携程酒店评论-Selenium-火狐浏览器-BeautifulSoup - 代码天地

爬取携程酒店评论-Selenium-火狐浏览器-BeautifulSoup

编程语言 2018-10-12 16:09:48 阅读次数: 0

版权声明：欢迎转载，转载需要明确表明转自本文 https://blog.csdn.net/u012442157/article/details/81605572

一、background

虽然scrapy是一个非常强大的工具，也能配合selenium来使用，但是时间比较紧，不知道为什么没有成功将selenium应用在scrapy上。日后再研究一下。
本篇博文只要讲述如何使用selenium，这是一个模拟浏览器来爬取数据的工具，当然还会使用到BeautifulSoup，专门提取网页内容的工具。

二、安装

安装selenium

# 一条命令搞定
pip install selenium

BeautifulSoup
因为我是使用anaconda安装的python，已经有bs4了。

三、配置火狐浏览器

这个还是相当复杂的，搞了很多次才搞定，因为版本的问题。

下载火狐浏览器安装好了之后，需要一个插件，geckodriver。
插件地址：https://github.com/mozilla/geckodriver/releases/

如图所示，虽然写着这个插件支持火狐57及以上版本，但是实验并没有成功。
这里写图片描述

解决办法：
看到一个解决办法，就是不用v0.21.0，用v0.20.1的geckodriver。
这里写图片描述

我为了保险起见，火狐浏览器的版本也换成了57，下载地址如下http://ftp.mozilla.org/pub/firefox/releases/

还有最后一步，需要把geckodriver拷贝到火狐浏览器的安装目录下，例如我的目录为：C:\Program Files\Mozilla Firefox。
然后该目录要添加到环境变量中。

四、爬虫

整理好github上传

猜你喜欢

转载自blog.csdn.net/u012442157/article/details/81605572

爬取携程酒店评论-Selenium-火狐浏览器-BeautifulSoup

利用selenium爬取携程酒店信息

python爬取携程酒店数据

selenium-控制浏览器操作

selenium-启动浏览器

携程酒店评论解密

python 利用火狐浏览器爬取内容

使用Chrome浏览器，爬取豆瓣评论

Java数据爬取——爬取携程酒店数据（一） Java数据爬取——爬取携程酒店数据（一）

Java数据爬取——爬取携程酒店数据（二）

Selenium-控制浏览器的常用操作

selenium-设置chrome浏览器无界面模式

selenium-浏览器操作方法

火狐，谷歌浏览器selenium的安装

通过selenium +headless浏览器爬取淘宝信息

Selenium+phanmJs 操作浏览器爬取数据

python的selenium爬取过程不出浏览器

通过selenium直接驱动浏览器爬取数据

动态爬取，酒店评论

爬取携程信息

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取

利用requests+分析ajax+mogodb爬取并存储携程酒店数据

火狐浏览器

利用协程框架，无界面浏览器爬取上海高院开庭数据

使用Selenium启动火狐浏览器

Selenium启动带插件的火狐浏览器Firefox

selenium3 火狐浏览器加载插件方法

selenium+python+火狐浏览器环境部署

selenium自动化操作浏览器(火狐)

selenium自动化操作火狐、PhantomJS浏览器

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)