爬虫页面解析和数据提取 - 代码天地

爬虫页面解析和数据提取

其他 2018-05-21 21:31:40 阅读次数: 2

一.数据类型及解析方式

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。

非结构化数据：先有数据，再有结构，
结构化数据：先有结构、再有数据
不同类型的数据，我们需要采用不同的方式来处理。

　　1.非结构化的数据处理

　　　　文本、电话号码、邮箱地址

　　　　用:正则表达式

　　　　html文件

　　　　用:正则表达式 / xpath/css选择器/bs4

　　2.结构化的数据处理

　　　　json文件

　　　　用:jsonPath / 转化成Python类型进行操作（json类）

　　　　xml文件

　　　　用:转化成Python类型（xmltodict） / XPath / CSS选择器 / 正则表达式

二.正则表达式

　　正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。

　　正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

　　给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

给定的字符串是否符合正则表达式的过滤逻辑（“匹配”）；
通过正则表达式，从文本字符串中获取我们想要的特定部分（“过滤”）。

正则表达式匹配规则

猜你喜欢

转载自www.cnblogs.com/lowmanisbusy/p/9069330.html

爬虫页面解析和数据提取

Python爬虫教程-18-页面解析和数据提取

Python之爬虫-- 页面解析和数据提取

Python页面解析和数据提取【bs4】

python爬虫的页面数据解析和提取(2)

08-页面解析之数据提取-python爬虫

Python爬虫10-页面解析数据提取思路方法与简单正则应用

Python爬虫-页面解析数据提取思路方法与简单正则应用

16.爬虫之数据解析和数据存储

Python爬虫之信息匹配和数据解析方式

Python 爬虫，lxml模块，XPath语法提取页面数据

网络爬虫 lxml库--解析和提取 HTML/XML 数据

python爬虫的几种数据解析提取方式

Python爬虫-网页数据的解析提取-Xpath

Python爬虫第一课 requests模块和数据提取

【Python百宝箱】抓取世界：网络爬虫和数据提取全家桶

爬虫 xpath (数据提取)

爬虫（六）数据提取

Python——爬虫——数据提取

爬虫-数据提取

爬虫之提取数据

【Python】爬虫数据提取

页面数据提取（2）

数据页面和数据行

爬虫原理和数据抓取

爬虫的原理和数据抓取

Python3爬虫--页面数据寻找及解析

Java爬虫（三）后台发请求获取页面解析数据

基于 Python 的 Scrapy 爬虫入门：页面提取

Python网络爬虫实现HTTP请求、解析网页和数据存储（简单静态网页爬取）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)