第二战：Xpath爬取静态网页文章内容 - 代码天地

第二战：Xpath爬取静态网页文章内容

其他 2018-08-30 15:05:08 阅读次数: 0

本文以爬取第一战文章中获得的各个url为地址，爬取其中文章内容。

先小叙述下xpath的表达式意思

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

已知url地址和header属性，那让我们来查找节点位置。

以关于报送2018-2019学年第一学期实验、实习教学计划及安排的通知为例

图片：

chrome浏览器网页界面打开检查即可。

并点击

在网页文章部分进行选取点击，即可在代码中到达原文位置。

因为这代码的文本信息非常散乱，我们使用正则表达式很难有效快速的将所需文字内容全部选取。则我们使用xpath。

找到其节点位置，并精确定位。这里大伙可以自己去找找看，我直接给出我的xpath路径和代码了。

xpath路径 //div[@align="center"]//div[contains(@class,"c11807_content")]//span/text()

import requests
from lxml import etree

link = "http://jwc.taru.edu.cn/info/10610/271846.htm"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
           "Host":"jwc.taru.edu.cn"
}
r = requests.get(link,headers= headers)
r.encoding='utf-8'
text = r.text
html = etree.HTML(text)
result = html.xpath('//div[@align="center"]//div[contains(@class,"c11807_content")]//span/text()')
str = '';
for eachone in result :
    str = str + eachone
print(str)

这样我们就将文章全部给爬下来了。

猜你喜欢

转载自www.cnblogs.com/exoier-ykz/p/9560202.html

第二战：Xpath爬取静态网页文章内容

python爬取csdn的文章内容

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

话本小说网-文章内容爬取

Python爬虫：学习啦网站文章内容爬取

PHP之使用CURL爬取文章列表、略缩图、及文章内容

python爬取微信公众号文章（包含文章内容和图片）

爬取伯乐在线文章（二）通过xpath提取源文件中需要的内容

用Python网络爬虫框架Scrapy实现对新华网的文章内容爬取

查询数据，从链接地址中爬取文章内容jsoup

利用xpath爬取网页

爬取静态网页

二战

考研（二战）

我与C语言之第二战！

抓取文章内容

使用XPath爬取网页数据

xpath和beautifulsoup爬取网页的demo

python 爬取静态网页

Python爬虫入门教程二：爬取静态网页

php XPath爬取小说站内容

PHP爬取网页内容

Python爬取网页内容

Python 爬取网页中JavaScript动态添加的内容（二）

考研二战开始

二战失败的感触

python3scrapy模块爬取国家粮油信息中心的政策法规和产业信息标题、文章内容等信息

博客文章内容索引

Django查看文章内容

jsoup获取文章内容

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)