【Python3 爬虫】爬取博客园首页所有文章 - 代码天地

【Python3 爬虫】爬取博客园首页所有文章

其他 2018-04-22 09:39:18 阅读次数: 5

首先，我们确定博客园首页地址为：https://www.cnblogs.com/

我们打开可以看到有各种各样的文章在首页，如下图：

我们以上图标记的文章为例子吧！打开网页源码，搜索Docker,搜索结果如下图：

从上图后红色标记部分可以看出，我们使用正则表达式即可匹配该网址，我们匹配到该网址之后，将该网址对应的内容下载到到底进行存储。

实现代码

import urllib.request
import re 
"""
爬取cnblogs首页所有的文章
"""
url = "http://www.cnblogs.com/"
headers = ("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
#此处的(.*?)是匹配href后所有内容，直到”结束
rule = '<h3><a class="titlelnk" href="(.*?)"'
result = re.compile(rule).findall(data)
for i in range(0,len(result)):
    file = "D:/source/"+str(i)+".html"
    urllib.request.urlretrieve(result[i],filename=file)
    print("第"+str(i+1)+"次成功")

运行结果：

第1次成功
第2次成功
第3次成功
第4次成功
第5次成功
第6次成功
第7次成功
第8次成功
第9次成功
第10次成功
第11次成功
第12次成功
第13次成功
第14次成功
第15次成功
第16次成功
第17次成功
第18次成功
第19次成功
第20次成功
[Finished in 9.3s]

爬取完成后，我们可以在相应路径下看到爬取后的内容

猜你喜欢

转载自www.cnblogs.com/OliverQin/p/8905824.html

【Python3 爬虫】爬取博客园首页所有文章

Python爬虫爬取CSDND首页的所有的文章

python3 BeautifulSoup模块使用与Python爬虫爬取博客园作业

python3: 博客园列表爬取；

Python 爬取博客园特定博主的文章

Python爬虫爬取博客园作业

python3爬虫例子02（获取个人博客园的文章信息）

Python爬取博客园首页内容信息，并写入excel表，最后导入Mysql

[Python] 爬取博客园博主标题网络爬虫 2020.2.8

python3爬取csdn上某账号所有文章

python3爬取CSDN个人所有文章列表页

Python爬取博客园浏览数据

python3爬虫爬取金庸小说所有角色

python3爬虫-爬取58同城上所有城市的租房信息

第一个Python爬虫，爬取某个新浪博客所有文章并保存为doc文档

python3 模拟博客园登录

python3爬虫例子01（获取个人博客园的粉丝）

python3 爬虫

python3爬虫

python爬虫-----学习bs，爬取丁香园特定帖子的所有回复内容

python爬取博客圆首页文章链接+标题

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量

爬虫爬取博客园文章的文字【练手】

Python3爬虫之爬取某一路径的所有html文件

Python3爬虫实战：爬取大众点评网某地区所有酒店相关信息

python3爬取微信公众号文章

python3 爬取搜狗微信的文章

用NodeJS实现一个网络爬虫小应用-爬取博客园首页文章列表

python3爬虫(2):使用Selenium爬取百度文库word文章

python3爬取博客浏览量

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)