快速入门网络爬虫系列 Chapter07 | 正则表达式

其他 2020-04-08 10:20:11 阅读次数: 0

Chapter07 | 抽取数据之正则表达式

一、网页介绍

1、网站
2、HTML语言
3、从网页中提取数据

二、正则表达式

1、正则表达式的工作流程
2、正则表达式的语言
3、正则表达式的分组
4、正则表达式的捕获
5、非捕获组和捕获组

三、re库

在说正则表达式之前，先说以以下网页结构
根据网站的组成结构，网站可以分为以下两种

一、网页介绍

1、网站

静态网站：
纯粹采用HTML语言编写，内容不变
动态网站：
①服务器段动态生成：使用ASP、PHP等语言进行编写，在服务器端运行，根据浏览器请求的地址及参数，动态从数据库中读取数据，并填入预先写好的模板中，实时生成所需要的HTML网页，返回给浏览器，在浏览器看来跟静态网站没有区别
②浏览器端动态加载：随时能实现更新，使用Javascript，AJAX渲染加载内容

对于爬虫而言：

服务器端动态生成的网页，因为使用了模板，可以较方便地从大量非常相似的网页中抽取感兴趣的内容和数据，相当于还原了服务器的后台数据库
使用正则表达式等工具，直接从HTML页面匹配内嵌的内容
通过分析AJAX，以及Javascript等脚本，匹配动态加载的内容

不论静态还是动态网站，HTML页面"隐藏"有价值的数据信息

动态网站的部分数据由脚本动态加载

使用网络爬虫提取信息，需要了解页面的HTML标签使用和分布情况

2、HTML语言

HTML(超文本标记语言，Hypertext Markup Language)是制作网页内容的一种标签语言
HTML通过在内容上附加各种标签，在浏览器中正确展示内容
HTML描述网页格式设计，与其它网页的连接信息
HTML不需要编译，直接由浏览器执行

一个完整的HTML文件包括：

文件内容(文字链接等)
HTML标签

一般HTML文件的书写遵循以下格式：

<标签名>文件内容(受标签影响的文本)</标签名>

HTML的标签数：

HTML文件的内容均包含在标签中：
嵌入标签的内容作为HTML的头
嵌入标签的内容为文件的内容主题

3、从网页中提取数据

借助Python网络库，构建的爬虫可以抓取HTML页面的数据
从抓取的页面数据中提取有价值的数据，有以下方式：

正则表达式
lxml
BeautifulSoup

二、正则表达式

面对复杂的HTML页面，经常需要从中抽取需要的信息，比如身份证号等
使用简介的字符串表达式，来去匹配这些信息：

匹配居民身份证(^\d{15}$)|)^\d{17}([0-9]|X)$)

正则表达式有独立的语法以及处理引擎，在支持正则表达式的语言中，正则表达式的语法一致
不同的编程语言实现支持的语法数量不同：

1、正则表达式的工作流程

2、正则表达式的语言

正则表达式语言由两种基本字符类型组成

原生(正常)文本字符
元字符

3、正则表达式的分组

使用正则表达式匹配重复字符串，只需在字符后面加上相应的元字符

如果要匹配重复的字符串，使用小括号()把目标字符串包裹起来

(abc)?可以匹配0个或者多个字符串abc

分组可以分为两种形式：

捕获组和非捕获组

4、正则表达式的捕获

小括号包裹起来的表达式去匹配字符串，匹配的结果可以在后续的匹配过程中使用
把表达式中的括号进行编号，从左到右，以左括号出现的前后顺序为准，第一个出现的分组，组号即为1.
组号0代表正则表达式整体

5、非捕获组和捕获组

非捕获组是指以(?)开头的分组组，它不捕获文本，没有分组编号，也不针对组合计进行计数
捕获组会默认把括号里的文本捕获过来以供下次使用。如果只是需要正则匹配，没有额外需求，使用非捕获组可以完成任务，降低资源消耗

eg：匹配0到100范围内的整数

三、re库

re是专门用于处理正则表达式的Python模块，通常有以下几个函数：

下面依次进行说明

发布了38 篇原创文章 · 获赞 41 · 访问量 9713

私信关注

猜你喜欢

转载自blog.csdn.net/qq_16146103/article/details/105229330

快速入门网络爬虫系列 Chapter07 | 正则表达式

python从入门到实践chapter07

Python网络爬虫与信息提取笔记07-Re（正则表达式）库入门

爬虫系列-正则表达式

python爬虫07 | 有了 BeautifulSoup ，妈妈再也不用担心我的正则表达式了

网络爬虫的正则表达式

爬虫入门_正则表达式

07. python从入门到精通——正则表达式

正则表达式快速入门

scala快速入门系列【正则表达式】

爬虫之正则表达式

Python 爬虫_正则表达式

Python爬虫（正则表达式）

Python爬虫--正则表达式

爬虫：正则表达式

Python爬虫与正则表达式

python爬虫正则表达式

python爬虫——正则表达式

【python爬虫】正则表达式

爬虫（六）正则表达式

正则表达式爬虫1

爬虫（7）——正则表达式

爬虫常用正则表达式

爬虫&正则表达式学习

【Pyhton 爬虫】正则表达式

爬虫（二）--正则表达式

爬虫正则表达式

快速了解正则表达式

快速学会正则表达式

快速掌握正则表达式

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)