16.Python使用lxml爬虫 - 代码天地

16.Python使用lxml爬虫

其他 2018-09-05 18:51:48 阅读次数: 0

1.lxml是解析库，使用时需要导入该包，直接在命令行输入：pip3 install lxml，基本上会报错。正确应该去对应的网址：https://pypi.org/project/lxml/#files，直接下载对应的lxml

（根据python版本自己去选择，笔者是python3.6，故下载：lxml-4.2.4-cp36-cp36m-win32.whl ，切换到下载的whl目录，在该目录下执行：

pip3 install lxml-4.2.4-cp36-cp36m-win32.whl ）

2.代码如下所示：

import requests
from lxml import etree

url = 'https://www.mafengwo.cn/gonglve/ziyouxing/2033.html'

response = requests.get(url)   #返回一个response对象
page = response.text

html = etree.HTML(page)      #返回一个Element对象，将字符串解析为HTML文档
content = html.xpath('//h2')

for i in content:
    print(i.text)

3.代码解释：

A：定义好url的路径，使用url获取到response对象如：url = ''

B：需要将reponse对象转化为字符串格式，page = response.text

C：使用解析库将字符串转为为HTML文档，根据自己想要获取的内容去定义xpath路径

猜你喜欢

转载自www.cnblogs.com/android-it/p/9593727.html

16.Python使用lxml爬虫

16.Python网络爬虫之Scrapy框架（CrawlSpider）

16.python异常处理

爬虫学习 16.Python网络爬虫之Scrapy框架（CrawlSpider）

16.python模块之正则

Python爬虫：使用lxml解析网页内容

16.python 列表推导式 - python基础入门

16.Python内置函数⼆面向对象-类-对象

python爬虫系列(3.2-lxml库的使用)

Python爬虫基础——XPath语法的学习与lxml模块的使用

【python爬虫】安装lxml模块

python爬虫（三）xpath与lxml

python爬虫入门（2）----- lxml

Python爬虫之路-lxml模块

python爬虫6：lxml库

使用lxml进行爬虫简介

Python学习：16.Python面对对象（三、反射，构造方法，静态字段，静态方法）

16.Python input()函数：获取用户输入的字符串

python3爬虫lxml模块的安装

Python爬虫(十二)_XPath与lxml类库

Python爬虫 XPath语法和lxml模块

python爬虫网页解析之lxml模块

Python爬虫(十)_XPath与lxml类库

python爬虫6--lxml解析库

Python爬虫之lxml库和XPath

python爬虫攻略（6）：lxml与xpath

10-python爬虫之lxml库

【python爬虫笔记】 lxml requests selenium模块

Python爬虫之findall和lxml

爬虫笔记(十三)——lxml库的使用

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)