scrapt中的数据提取，采用js2xml库 - 代码天地

scrapt中的数据提取，采用js2xml库

其他 2018-10-21 11:41:44 阅读次数: 0

这个一个爬去美团的例子，应为数据都是在script中，小心封ip，尽量少运行。

先导入库几个库

import requests
from bs4 import BeautifulSoup
from lxml import etree
import js2xml

发送请求，获取到script里面的数据

url = "https://sz.meituan.com/meishi/"
headers = {}
response = requests.get(url, headers = headers)
content = response.text
bs = BeautifulSoup(content, "lxml")
l = bs.select("body script")[13].string  #获取到body中第十三个script里面的数据

然后在利用js2xml方法格式化之后再利用xpath来提取数据

src_text = js2xml.parse(l, encoding='utf-8', debug=False)
print(type(src_text))
src_tree = js2xml.pretty_print(src_text)
print(src_tree)
selector = etree.HTML(src_tree)
content = selector.xpath('//property[@name="poiId"]/number/@value')
name = selector.xpath('//property[@name="title"]/string/text()')

就ok了

猜你喜欢

转载自www.cnblogs.com/zengsf/p/9824377.html

scrapt中的数据提取，采用js2xml库

python爬虫— 利用js2xml 获取 script 数据

提取 xml 文件中的 CDATA 数据

Flask 提取数据库中的数据

网络爬虫 lxml库--解析和提取 HTML/XML 数据

Python读取XML中数据提取为Dataframe

java中采用ODBC方式连接Access数据库

模仿mongodb采用xml+json实现小型数据库

js提取JSON数据中需要的那部分数据

Unity中采用XML存档与读档

从js中提取数据

通过Python的PyPDF2库提取pdf中的文字

通过Python的PyPDF2库提取pdf中的图片

利用jupyter提取xml数据集内容存入sql数据库

Android中数据存储--采用SQLite存储数据及在SDCard中创建数据库

页面数据提取（2）

使用Node.js的xml2js模块操作xml数据

JS - 实现XML转JSON数据使用xml2json.js）

采用python中的opencv2的库来运用机器视觉移动物体

JS 提取公式中的参数

db2采用移除而非删除，补救彻底删除数据库方法

使用XPath提取xml文档数据

从XML文件和properties文件提取数据

采用web3.js将数据写入到区块链中

利用XML在不同数据库中交换数据

采用了数据库中的关键字，如何将它转为普通字符

.NET Core采用的全新配置系统[7]: 将配置保存在数据库中

数据库 Redis 采用指令

Oracle创建数据库（采用DBCA）

Oracle创建数据库（采用DBCA）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)