第二篇，使用re正则表达式获取古诗文信息

其他 2019-10-25 10:57:46 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_43779803/article/details/102734278

使用正则爬取古诗文网页

获取网站url:https://www.gushiwen.org/default_1.aspx下的标题朝代作者古诗，话不多说直接上代码。

// 
import re
import requests

def parse_page(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'}
    response = requests.get(url,headers=headers)
    text = response.text
    #print(response.text)
    biaoti = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)#re.DOTALL代表点获取所有的字符，因为其中有换行符，所以要加上非贪婪,如果不加上问号，就代表在div中随机匹配一个标签为b的字符串,re.s也是同样的效果
    #print(biaoti)
    chaodai = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    #print(zuozhe)
    zuozhe = re.findall(r'<p class="source">.*?<a.*?>.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    #print(zuozhe)
    gushi1 = re.findall(r'<div class="contson".*?>\n(.*?)</div>',text,re.DOTALL)
    #print(gushi1)
    b = []
    for gushi in gushi1:
        x = re.sub(r'<.*?>','',gushi)#这里表示把含有<>标签的元素全部替换为空
        #print(x.strip())#去掉空的行
        b.append(x.strip())

    a = []
    for value in zip(biaoti,chaodai,zuozhe,b):
        biaotis,chaodais,zuozhes,bs = value
        pepo = {
            '标题':biaotis,
            '朝代':chaodais,
            '作者':zuozhes,
            '古诗':bs
        }
        #print(pepo)
        a.append(pepo)
    for pepo in a:
        print(pepo)

def main():
    url = 'https://www.gushiwen.org/default_1.aspx'
    parse_page(url)

if __name__ == '__main__':
    main()

最近学数据清洗还没有弄明白，等明白了再发出来，先水一篇

猜你喜欢

转载自blog.csdn.net/weixin_43779803/article/details/102734278

第二篇，使用re正则表达式获取古诗文信息

爬虫_古诗文网（正则表达式）

「python爬虫之路day9」:实战之使用正则表达式爬取抓狂网，古诗文网信息

初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

Python 正则表达式之爬取古诗文名句

爬虫实战——利用正则表达式爬取古诗文网

【Python3 爬虫】U20_正则表达式爬取古诗文网

正则表达式第二篇：环视

正则表达式第二篇

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

re正则表达式使用

Shell第二篇：正则表达式和文本处理工具

正则提取案例(古诗文网)

RE正则表达式总结（二）

Python re正则表达式模块(二)

python中re模块使用，正则表达式

正则表达式的使用举例re

Python 正则表达式详解与 re 模块的使用

正则表达式re.compile()的使用

Python中正则表达式（re模块）的使用

python正则表达式之re模块使用

正则表达式-re模块的使用

正则表达式 re模块的使用

python 正则表达式re 模块的使用

使用正则表达式re_path

Re库使用（正则表达式）

python正则表达式re模块的简单使用

正则表达式Re库的使用-Python

正则表达式的使用（二）

re模块正则表达式

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)