通过urllib.request爬取CSDN原创博客标题方法封装 - 代码天地

通过urllib.request爬取CSDN原创博客标题方法封装

其他 2020-01-02 20:34:14 阅读次数: 0

通过urllib.request爬取CSDN博客原创博客标题方法封装

正则表达式：pat = '<span class=".*">原创</span>(.*)</a>'

import re
import urllib.request


def get_csdn(url, pat, page):
    title_list = []
    for page1 in range(1, int(page) + 1):
        new_url = url + str(page1)
        result = urllib.request.urlopen(new_url).read().decode("utf-8")
        string = re.compile(pat).findall(result)
        for title in string:
            j = title_list.append(title.strip()) # str.strip()去空格
    return title_list


if __name__ == '__main__':
    url = "https://blog.csdn.net/weixin_42760923/article/list/"
    pat = '<span class=".*">原创</span>(.*)</a>'
    page = 5
    print(get_csdn(url, pat, page))
    print(len(get_csdn(url, pat, page)))

返回结果：

猜你喜欢

转载自www.cnblogs.com/CesareZhang/p/12141797.html

通过urllib.request爬取CSDN原创博客标题方法封装

【爬虫】使用urllib.request去爬取小说

Python爬虫之爬取内涵吧段子（urllib.request）

urllib.request 设置代理进行爬取,防止被封IP,各种hander高级用法

python爬虫实践2：用urllib.request爬取天气网的图片

专题07-python使用urllib.request爬取图片

使用urllib.request和cookie模拟登录csdn

urllib.request

urllib.request 学习

爬虫urllib.request

python爬取CSDN所有博客标题

python爬取个人csdn博客链接和标题

爬虫 urllib.request 模块

Python 3 urllib.request

Python 爬虫：urllib.request

urllib.request详细介绍

urllib.request encode()/decode()

python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999传奇页面，并将数据存储到本地计算机中。

python从入门到放弃篇25（lxml.etree库，urllib.request库，xpath方法，for循环构造xpath路径）爬取一刀999页面，并保存数据。

python从入门到放弃篇26(lxml.etree库，urllib.request库，构造xpath路径，构造url）实现翻页爬取豆瓣书简介并保存数据

python从入门到放弃篇30（selenium库，lxml库,urllib.request库)联合实现简单页面深入爬取

简单爬虫：爬取weixin某网站图片from re import findall #re为正则表达式 from urllib.request import urlopen

Jsoup爬取CSDN博客

[Python]爬取CSDN论坛标题 2020.2.8

如何爬取CSDN博客中分栏的所有文章的标题和链接

针对 urllib.request 的简单理解

Python爬虫（urllib.request和BeautifulSoup）

from urllib.request import urlopen

爬虫学习-urllib.request信息发送

urllib.request模板的高级用法

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)