使用xpath方法爬取丁香网的评论消息

其他 2019-03-05 23:13:51 阅读次数: 0

这里写自定义目录标题

xpath简介

XPath常用规则
爬取论坛丁香网的源码

xpath简介

XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。

所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取。
XPath的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用XPath来选择。

XPath常用规则

下图列举了XPath的几个常用规则。

在这里插入图片描述这里列出了XPath的常用匹配规则，示例如下：

 	
//title[@class='env']

这就是一个XPath规则，它代表选择所有名称为title，同时属性class的值为env的节点。

后面会通过Python的lxml库，利用XPath进行丁香网论坛评论的爬取。

爬取论坛丁香网的源码

#! /usr/bin/env python
# -*- coding: utf-8 -*-
# __author__ = "bravexz"
# Date: 19-3-4

import requests
from lxml import etree


def get_html(url):
    headers ={
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36'
    }

    res = requests.get(url,headers = headers)
    res.encoding = res.apparent_encoding
    return res.text
    # print(res.text)



def parse_html(res):
    data =[]
    new_data =[]
    html = etree.HTML(res)
    result_name = html.xpath('//div[@class="auth"]/a/text()')
    result_data = html.xpath('//td[@class="postbody"]/text()')
    for i in range(0,int(len(result_name))):
        data.append(result_name[i]+"++++++++"+result_data[i])

    for i in data:
        new =i.replace("\n","").replace("\t","").replace(" ","")
        new_data.append(new)
        print(new_data)

参考：https://cuiqingcai.com/5545.html

猜你喜欢

转载自blog.csdn.net/mengxj168/article/details/88125735

使用xpath方法爬取丁香网的评论消息

使用beautifulsoup爬取丁香网评论

使用xpath爬取数据

网络爬虫 - 5 Xpath的使用方法与爬取案例

xpath爬取mooc网课程

xpath爬取mooc网课程

爬虫学习：xpath爬取评书网

爬取孔夫子旧书网的评论

python爬取微博评论（通过xpath解析的方式）

PubMed（丁香）英汉词典爬取

爬取丁香论坛指定回复

【Python从零到壹】使用XPath解析数据爬取起点小说网数据

使用xpath技术爬取段子网

使用XPath爬取网页数据

使用XPath爬取西刺代理

使用etree与xpath爬取Discuz论坛

使用xpath爬取壁纸图片

python爬取天气网的全国空气质量指数排行榜（使用正则表达式和Xpath方法

利用xpath爬取招聘网的招聘信息

python-xpath爬取mooc网并生成词云

Python爬取豆瓣网图书评论

No.7 网抑云音乐评论爬取

爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

python爬取丁香园的疫情数据绘制Echarts地图

武汉疫情系列(1)|java爬取丁香园|JAVA爬取丁香医生的全国新型肺炎疫情实时动态

使用Requests+xpath实现简单的数据爬取

使用xpath爬取猫眼电影排行榜

python使用XPATH爬取电影票房

python 使用xpath/lxml爬取网页表格并存CSV

使用爬虫xpath提取数据-爬取美女图片

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)