正则提取html网页中字符串 - 代码天地

正则提取html网页中字符串

其他 2018-05-17 22:19:24 阅读次数: 2

方式一：

RULES = [
    [r'<style[\s\S]*?</style>', ''],
    [r'<script[\s\S]*?</script>', ''],
    [r'</(div|h|p)>', '\n'],
    [r'<br.*?>', '\n'],
    [r'<[^>]+?>', ''],
    [r'&nbsp;', ' '],
    [r'&amp;', '&'],
    [r'&lt;', '<'],
    [r'&gt;', '>'],
    [r'&quot;', '"'],
    [r'^[\n\s]*', ''],
    [r'^\s+', ' '],
    [r'^[\s\S]*?Description', ''],
    [r'Payment[\s\S]*$', ''],
]
result = reduce(lambda desc, rule: re.sub(rule[0], rule[1], desc, flags=re.I | re.M), RULES, description).strip()
print(result)

方式二：

result = description
result = re.sub(r'<style[\s\S]*?</style>', '', result, flags=re.I | re.M)
result = re.sub(r'</(div|h|p)>', '\n', result, flags=re.I | re.M)
result = re.sub(r'<br.*?>', '\n', result, flags=re.I | re.M)
result = re.sub(r'<[^>]+?>', '', result, flags=re.I | re.M)
result = re.sub(r'&nbsp;', ' ', result, flags=re.I | re.M)
result = re.sub(r'&amp;', '&', result, flags=re.I | re.M)
result = re.sub(r'&lt;', '<', result, flags=re.I | re.M)
result = re.sub(r'&gt;', '>', result, flags=re.I | re.M)
result = re.sub(r'&quot;', '"', result, flags=re.I | re.M)
result = re.sub(r'^[\n\s]*', '', result, flags=re.I | re.M)
result = re.sub(r'^[\s\S]*?Description', '', result, flags=re.I | re.M)
result = re.sub(r'Payment.*?$', '', result, flags=re.I | re.M)
result = result.strip()

print(result)

猜你喜欢

转载自blog.csdn.net/zn505119020/article/details/78933313

正则提取html网页中字符串

使用正则，提取字符串中数字

python 正则之提取字符串中的汉字

使用正则提取字符串中URL等信息

JS 正则提取字符串中数字

C#正则提取字符串中的数字

简单实用的HTML中字符串的提取

php正则字符串提取汉字

正则提取字符串-python

正则匹配去掉字符串中的html标签

Android 从带有html标签的String字符串中提取网页链接url

提取html网页被空格或者换行符包含的字符串

shell正则提取字符串中的数字并保存到变量中

Python使用re模块正则提取字符串中括号内的内容示例

python 正则之提取字符串中的汉字,数字,字母

Qt技巧：正则表达式提取字符串中的键值对数据

oracle利用正则表达式提取字符串中的数字

python正则表达式提取/过滤字符串中的数字

java——正则提取字符串中的中文和数字

正则提取字符串中的年龄对大于50的求和

js正则提取字符串中http等地址

R语言提取文字（字符串）中的内容--正则式（2）

R语言提取文字（字符串）中的内容--正则式（1）

提取字符串中的数字

提取字符串中数字、

字符串String中tag提取

CString字符串中数字的提取

hive中的字符串提取

（转）用python正则提取字符串的方法

python/正则从字符串中提取数字

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

SVN同步出现问题

解决 nginx 出现 413 Request Entity Too Large 的问题

第一节区块链服务BaaS的总体架构以及基本模块设计的一种方案

ITeye 2013年度盘点——社区赠书书单

IDEA / git 和github 的新手使用教程史上最简单的 IntelliJ IDEA 教程史上最简单的 GitHub 教程

测试工程方法：测试用例设计综合策略

Spark优化(三)：对多次使用的RDD进行持久化

使用STM32 ST-LINK Utility 设置读保护后不能运行

exgcd 解同余方程ax=b(%n)

Android使用脚本进行多渠道打包

每日归档

更多

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)