web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础 - 代码天地

web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础

其他 2019-07-01 18:04:50 阅读次数: 0

在urllib中，我们一样可以使用xpath表达式进行信息提取，此时，你需要首先安装lxml模块，然后将网页数据通过lxml下的etree转化为treedata的形式

urllib库中使用xpath表达式

etree.HTML()将获取到的html字符串，转换成树形结构，也就是xpath表达式可以获取的格式

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #导入html树形结构转换模块 wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore') zhuanh = etree.HTML(wye)  #将获取到的html字符串，转换成树形结构，也就是xpath表达式可以获取的格式 print(zhuanh) hqq = zhuanh.xpath('/html/head/title/text()') #通过xpath表达式获取标题 #注意，xpath表达式获取到数据，有时候是列表，有时候不是列表所以要做如下处理 if str(type(hqq)) == "<class 'list'>":  #判断获取到的是否是列表     print(hqq) else:     xh_hqq = [i for i in hqq]       #如果不是列表，循环数据组合成列表     print(xh_hqq) #返回 ：['【今日爆点】你的专属资讯平台']

BeautifulSoup基础

BeautifulSoup是获取thml元素的模块

BeautifulSoup-3.2.1版本

猜你喜欢

转载自www.cnblogs.com/liuyun258/p/11115645.html

web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础

如何在urllib中使用xpath表达式

python爬虫——正则表达式及urllib的使用

爬虫之xpath表达式

爬虫-xpath表达式符号用法

网络爬虫——XPath表达式

爬虫--解析库的使用 XPath、BeautifulSoup、pyquery

Python网络爬虫：爬虫原理、正则表达式、正则表达式函数、urllib基础、超时设置

爬虫XPath表达式提取信息实用插件：XPath helper下载安装使用

XPATH表达式

xpath 表达式

2-Python爬虫-正则表达式/XML/XPath/CSS

【Python3 爬虫学习笔记】基本库的使用 9—— 正则表达式 2

Python爬虫包 BeautifulSoup 之正则表达式与Lambda表达式

爬虫-正则表达式-lxml$xpath

Python scrapy框架爬虫之xPath表达式

python笔记解析web的库 XPath BeautifulSoup pyQuery基础

JAVA Web基础 EL表达式与JSTL标签库

Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式

正则表达式、xpath和Beautifulsoup的分析和总结

爬取实例-Python3.6，Xpath，BeautifulSoup4, 正则表达式

【XML】XPath表达式

xpath路径表达式

XPath 路径表达式

Xpath 常用表达式

Lambda表达式使用详细讲解

js中使用el表达式

mybatis中使用OGNL表达式

JSP中使用EL表达式

Qt中使用lambda表达式

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)