python 正则表达式提取网页文字 - 代码天地

python 正则表达式提取网页文字

企业开发 2023-12-16 23:17:05 阅读次数: 0

示例代码：

import re
def extract_chinese(text):
    # 移除HTML标签
    text_without_html = re.sub(r'<[^>]+>', '', text)
    text_without_styles = re.sub(r'style="[^"]+"', '', text_without_html)
    # 匹配所有汉字字符
    chinese_chars = re.findall(r'[\u4e00-\u9fff\u3000-\u303f]', text_without_html)
    # 将所有匹配的汉字字符连接成一个字符串
    pure_chinese_text = ''.join(chinese_chars)
    return pure_chinese_text

def print_with_newline_on_period(text):
    # 根据句号分割字符串
    sentences = text.split('。')
    for sentence in sentences[:-1]:  # 最后一个句子后面可能没有句号，所以我们排除它
        print(sentence + '。')  # 打印句子和句号
    if sentences[-1]:  # 如果最后一个片段不是空的，就打印它
        print(sentences[-1])

if __name__ == '__main__':


    # 示例文本
    text_to_extract = """
    <div oncontextmenu="return false" class="xe-preview__content forbidden_contextmenu">
    <p style=";font-size: 16px;font-family: 宋体;white-space: normal;text-indent: 32px;line-height: 32px">
    <span style="font-size: 18px;line-height: 36px;color: rgb(63, 63, 63)"><br></span></p>
    <p style=";font-size: 16px;font-family: 宋体;white-space: normal;text-indent: 32px;line-height: 32px">
    <span style="font-size: 18px;line-height: 36px;color: rgb(63, 63, 63)">这一讲是任务管理力的第二个关键知识点：时间管理。</span></p>
    ... (其他文本)
    """

    strs = extract_chinese(text_to_extract)
    print_with_newline_on_period(strs)

结果：

这一讲是任务管理力的第二个关键知识点时间管理。
其他文本

猜你喜欢

转载自blog.csdn.net/jacke121/article/details/134623130

python 正则表达式提取网页文字

python学习笔记——提取网页中的信息正则表达式re

python通过正则表达式提取文本

Python3 提取中文的正则表达式

python接口用正则表达式提取数据

python 正则表达式提取返回内容

python 正则表达式提取特殊信息

Python正则表达式提取datetime日期+时间

python利用re正则表达式提取数据

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

python正则表达式多次提取数据（一个规则提取多组数据）

Python中的正则表达式

python 正则表达式

Python 之正则表达式

Python：正则表达式-3

python正则表达式

python常用正则表达式

Python：正则表达式-2

Python：正则表达式-1

python笔记-----正则表达式

python的正则表达式

Python正则表达式相关

python---正则表达式

Python正则表达式—简介

Python正则表达式指南

python正则表达式详解

Python：正则表达式-4

python正则表达式(re)

python正则表达式示例

Python：正则表达式-5

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)