爬虫实战——利用正则表达式爬取古诗文网 - 代码天地

爬虫实战——利用正则表达式爬取古诗文网

其他 2020-04-13 20:39:33 阅读次数: 0

import re
import requests

def parse_url(url):

    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"}
    response=requests.get(url,headers=headers)
    text=response.text
    end=[]
    #titles=re.findall(r'<div\sclass="ycd">.*?<h2>.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    titles=re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)
    dynesties=re.findall(r'<p\sclass="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    authors=re.findall(r'<p\sclass="source">.*?<a.*?><a.*?>(.*?)</a>',text,re.DOTALL)
    poems=re.findall(r'<div class="contson" .*?>(.*?)</div>',text,re.DOTALL)
    content=[]
    for poem in poems:
        x=re.sub(r'<.*?>'," ",poem)
        content.append(x.strip())
    ends=[]
    for value in zip(titles,dynesties,authors,content):
        titles, dynesties, authors, content=value
        poe={
            "title":titles,
            "dynasty":dynesties,
            "author":authors,
            "content":content
        }
        ends.append(poe)
    for end in ends:
        print(end)


    #print(authors)
def main():
    for i in range(10):
        url="https://www.gushiwen.org/default_%s.aspx" %i
    #url = "https://gushiwen.com/type/n/xianqin/n/1.html"
        parse_url(url)



main()

发布了35 篇原创文章 · 获赞 4 · 访问量 2338

私信关注

猜你喜欢

转载自blog.csdn.net/devilangel2/article/details/105441537

爬虫实战——利用正则表达式爬取古诗文网

爬虫_古诗文网（正则表达式）

【Python3 爬虫】U20_正则表达式爬取古诗文网

「python爬虫之路day9」:实战之使用正则表达式爬取抓狂网，古诗文网信息

初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

Python 正则表达式之爬取古诗文名句

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

Python爬虫——爬取古诗文网

第二篇，使用re正则表达式获取古诗文信息

python爬取古诗文网

爬取古诗文网古诗词

爬取古诗文网的推荐古诗

古诗文网爬虫

用正则表达式爬取古诗词网

利用正则表达式爬取官网数据及反反爬虫方法分析

python小白学习记录结合scrapy编写爬虫爬取古诗文网右侧的标签

正则提取案例(古诗文网)

正则表达式_爬取中国古诗词网与豆瓣热门图书

Python爬虫：正则表达式爬取校花网

爬虫15-正则表达式爬取中国诗词网

Python爬虫-利用正则表达式爬取猫眼电影

Python 利用BeautifulSoup和正则表达式来爬取旅游网数据

爬虫实战——正则表达式爬取糗事百科

正则表达式爬取网页实战

Python网络爬虫：爬取古诗文中的某个制定诗句来实现搜索

爬虫_古诗文网(队列，多线程，锁，正则，xpath)

爬虫古诗文网站

python 爬取古诗文存入mysql

Python3网络爬虫实战解析——静态小说网爬取（使用正则表达式解析）

爬虫之验证码识别--古诗文网

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)