Python数据挖掘学习笔记（10）爬取CSDN资讯页的所有新闻 - 代码天地

Python数据挖掘学习笔记（10）爬取CSDN资讯页的所有新闻

其他 2018-09-08 18:09:00 阅读次数: 0

需求：爬取CSDN资讯页http://blog.csdn.net/nav/news的所有新闻，每个文章内容单独生成一个本地网页存到本地中。
难点：需要进行浏览器伪装、循环爬各文章。
思路：先爬首页，然后通过正则筛选出所有文章url，然后通过循环分别爬取这些url到本地。

实现：

首先观察该网页的源代码：

注意到每个新闻页被<h2>标签所包围，编写代码：

import urllib.request
import re

#浏览器伪装
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6726.400 QQBrowser/10.2.2265.400")
opener=urllib.request.build_opener() #添加为全局，很重要
opener.addheaders=[headers]
data1=opener.open("http://blog.csdn.net/nav/news").read()
data2=data1.decode("utf-8")
pat='<h2>\n.*?<a href="(.*?)"'
allurl=re.compile(pat).findall(data2)
print(len(allurl))
for i in range(0,len(allurl)):
    try:
        print("第"+str(i)+"次爬取")
        thisurl=allurl[i]
        print(thisurl)
        file="F:/csdnnews/"+str(i)+".html"
        urllib.request.urlretrieve(thisurl,file)
        print("-------成功-------")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

感谢韦玮老师的指导

猜你喜欢

转载自blog.csdn.net/Smart3S/article/details/82492413

Python数据挖掘学习笔记（10）爬取CSDN资讯页的所有新闻

Python数据挖掘学习笔记（9）爬取新浪新闻首页的所有新闻

python3爬取CSDN个人所有文章列表页

python学习，新浪新闻的爬取和CSDN博文爬取

python爬取CSDN所有博客标题

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

python3爬取新闻网站的所有新闻-新手起步

Python数据挖掘学习笔记（5）爬取豆瓣阅读的出版社名称数据

爬取5家公司（如：阿里巴巴、京东、亚马逊、华为、贵州茅台）百度“资讯”新闻的10页内容

python爬虫：爬取新浪新闻数据

Python爬取新闻网数据

python爬取西刺代理所有数据！

python3爬取csdn上某账号所有文章

python- （scrapy上）爬取csdn所有博客内容

Python番外篇：爬取CSDN博文中所有的代码

python爬取百度新闻数据,python爬取新闻网站内容

python爬取数据多页

python实战之网络爬虫（爬取网页新闻资讯列表）

5行python代码爬取新闻网最新资讯，你敢相信？

python爬取所有股票报道

python爬取HDU所有题目

Python爬取网页所有小说

[python爬虫]爬取英雄联盟所有英雄数据并下载所有英雄皮肤

Python爬虫爬取懂球帝足球新闻（分类，分标签，多页，存数据库，去重）

scrapy爬取新浪网导航页所有大类、小类、小类里的子链接，以及子链接页面的新闻内容

python 爬取腾讯新闻

python爬取新浪新闻

【python爬虫-爬微博】爬取王思聪所有微博数据

Java爬取新闻数据

Python爬虫自学系列（八）-- 项目实战篇（二）爬取我的所有CSDN博客

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)