基于Headless浏览器来访问当当页面商品信息--代码示例 - 代码天地

基于Headless浏览器来访问当当页面商品信息--代码示例

其他 2018-07-13 05:11:28 阅读次数: 0

依赖库说明

selenium: 兼容不同浏览器的WebDriver
PhantomJS: 著名的无头浏览器，不幸的是最近maintainer放弃继续支持维护了，真是一件悲伤的事情。
开发语言： Python 3.6

功能描述

从当当商城中爬取某个商品的价格和名称。这里尝试查找”非暴力沟通“的图书信息，输出价格和命名。

代码示例

  # -*- coding: utf-8 -*-
"""
Created on Tue Jul 10 14:41:01 2018

@author: chenjunfeng
"""

from selenium.webdriver.common.action_chains import ActionChains
from selenium import webdriver
import pandas as pd
import re
from selenium.webdriver.common.keys import Keys

driver = webdriver.PhantomJS(executable_path=r'D:/Program Files/phantomjs-2.1.1-windows/bin/phantomjs')

url='http://www.dangdang.com/'

driver.get(url)

input_node=driver.find_element_by_xpath('//*[@id="key_S"]')

input_node.send_keys(r"非暴力沟通")
input_node.send_keys(Keys.ENTER)
# wait for a second
driver.implicitly_wait(1)

title_path = r'//*[@id="p23807861"]/p[1]/a/font'
price_path = r'//*[@id="p23807861"]/p[3]/span[1]'

title = driver.find_element_by_xpath(title_path).text
price = driver.find_element_by_xpath(price_path).text

print("title:" + title + ", price:" + price)

代码说明：
1. 这里默认使用的phantomjs的路径是内置写死的，大家可以自行修改即可。
2. Firefox/Chrome中使用的xpath路径是不一样的，建议使用chrome
3. 在这里使用的web element的节点是直接写死的，大家可以参考使用相对xpath来进行大范围的查找和使用

## 总结
基于headless浏览器非常强大，从此没有不能爬的数据了……

猜你喜欢

转载自blog.csdn.net/blueheart20/article/details/80986551

基于Headless浏览器来访问当当页面商品信息--代码示例

使用selenium模拟浏览器,获取淘宝搜索页面商品名称销量等信息

python爬虫爬取淘宝搜索页面商品信息数据

不用写代码的爬虫：使用chrome浏览器的爬虫插件Web Scraper爬取天猫商品信息

使用python利器selenium工具模拟浏览器运行并爬取淘宝商品信息

python项目实战:利用selenium+浏览器爬取淘宝商品信息

python selenium控制浏览器爬取淘宝商品信息

python基础项目实战:selenium控制浏览器爬取淘宝商品信息

Python爬虫模拟浏览器的headers、cookie，爬取淘宝网商品信息

python scrapy爬取当当网商品信息

使用selenium+Chrome()无图版模拟浏览器进行抓取淘宝商品信息

通过selenium +headless浏览器爬取淘宝信息

用代码关闭微信浏览器访问的页面

在页面上显示商品信息

Python Selenium Headless：以 Headless 模式打开 Chrome 浏览器

JS使用[]或.来访问对象属性

通过引用变量来访问对象

使用Hive来访问HBase

使用restTemplate来访问https

使用Morphia的BasicDAO来访问Mongodb

Python把类当做字典来访问

SSH通道来访问MySQL

用户登录后重定向到原来访问页面

【Linux】练习---搭建HTTP协议下的静态网站（基于不同IP地址来访问）

Scrapy入门与当当网商品信息爬取实战

爬虫项目实战十一：爬取当当网商品信息

【Python实战】用代码来访问1024网站

JavaSE系列代码07：定义公共方法来访问私有成员

python爬虫之selenium库，浏览器访问搜索页面并提取信息，及隐藏浏览器运行

说一下怎么搭建外网来访问SVN服务器

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)