利用xpath爬取网页 - 代码天地

利用xpath爬取网页

其他 2018-08-12 18:58:41 阅读次数: 0

xpath应该是爬取网页最简单的方法啦，因为你需要要懂xpath，可以直接通过浏览器来获取你想要的内容。

以Chrome为例，按f12检查网页，用箭头点击自己想要的地方，比如我想提取出“故宫博物院”的xpath地址，右击，点击copy，然后选择copy xpath。这样我们就获得“故宫博物院”的xpath。

我们通过Chrome插件xpath helper来验证我们提取的xpath是否正确。

完全正确。完美。不过需要注意我们提取出的xpath是这个标签的xpath，如果我们需要提取其中的文字，我们需要在我们提取出的xpath后面加上“/text()”。

如何用python来提取出我想要的代码？这很简单，都是模板，只要按照以下的代码执行就行

import requests
from lxml import etree
import lxml
url="http://www.meituan.com/xiuxianyule/271772/"
#你需要爬取的网页
html=requests.get(url)
html.encoding="utf-8"
selecter=etree.HTML(html.text)
#将你的xpath复制到三引号里面，因为xpath里可能有双引号，所以我们加上三引号比较靠谱
s=selecter.xpath("""//*[@id="lego-widget-play-mt-poi-001-000"]/div/div[2]/div[1]/h1/text()""")
print (s)

猜你喜欢

转载自blog.csdn.net/ssssdbucdbod/article/details/80992839

利用xpath爬取网页

xpath；；利用xpath爬取电影天堂

使用XPath爬取网页数据

xpath和beautifulsoup爬取网页的demo

利用Lxml库中xpath语法爬取异步加载网页中图片并存入mongodb

practice之Python爬取链家网页面（xpath）

python 使用xpath/lxml爬取网页表格并存CSV

利用Python爬取网页图片

利用xpath爬取招聘网的招聘信息

Python利用xpath和正则re爬取新浪新闻

python利用xpath爬取天气预报信息

xpath-房价爬取

python xpath图片爬取

爬取千千小说 -- xpath

使用xpath爬取数据

利用C#爬取网页HTML数据

Python 利用Requests库爬取单个网页实例

利用爬虫爬取简单页码类网页数据

第二战：Xpath爬取静态网页文章内容

python网络爬虫之解析网页的XPath(爬取java职位信息)[三]

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

利用xpath爬取lianjia租房信息并保存到数据库

爬虫]利用xpath爬取豆瓣电影top250（转）

利用xpath对链家深圳二手房爬取

Python爬虫-利用xpath解析爬取58二手房详细信息

python爬取网页

pyspider爬取网页

爬取静态网页

网页爬取

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)