新浪网(sina)新闻链接爬取

其他 2018-09-01 14:11:19 阅读次数: 0

目录

一、新闻爬虫需求分析

二、实现思路

三、项目代码实现

一、新闻爬虫需求分析

将新浪新闻首页(http://news.sina.com.cn)所有新闻都爬取到本地。

二、实现思路

1.首先解析网页,查看各条新闻存储位置

2.通过正则表达式获取新闻链接,依次爬取各新闻并存储到本地

pat='href="(http://news.sina.com.cn/.*?)">'
#正则表达式,写出每条新闻对应的链接

三、项目代码实现

# -*- coding: utf-8 -*-
#新浪新闻首页新闻爬取
import urllib.request
import re
data=urllib.request.urlopen("http://news.sina.com.cn/").read()
#读取网页内容
data2=data.decode("utf-8","ignore") 
#有很多情况utf-8或者gbk会出现解码失败,更换不是解决办法,加上ignore第二个参数可忽视基本可以永久性解决问题
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(data2)
#从data2中匹配出所有是特定网址的网址
for i in range(0,len(allurl)):#for循环进行遍历
    #异常处理,防止系统崩溃,不然程序遇到异常会终止自动结束
    try:
        print("第"+str(i)+"次爬取")
        thisurl=allurl[i]
        file="C:/Users/Administrator/Desktop/urllib/sinanews"+str(i)+".html"
         #存储到本地文件
        urllib.request.urlretrieve(thisurl,file)
        print("爬取成功")
    except urllib.error.URLError as e:
            #if 语句 判断是否有状态码
            if hasattr(e,"code"):
                print(e.code)
            if hasattr(e,"reason"): 
                print(e.reason)

代码采取了异常处理,增强了程序的健壮性,防止程序因爬取到某条新闻链接产生异常跳出系统,try....except,假设产生异常输出提示语,自动进入下次循环.

猜你喜欢

转载自blog.csdn.net/Analyst128/article/details/81209140

新浪网(sina)新闻链接爬取

【转】写一个简单的爬虫来批量爬取新浪网的新闻

scrapy爬取新浪网导航页所有大类、小类、小类里的子链接，以及子链接页面的新闻内容

爬取新浪新闻

爬取新浪网股票并实现图形化2.0(pyqt5)

爬取新浪网股票并实现界面化1.0(pyqt5)

scrapy爬取新浪网站全栈新闻标题内容，并且分类存入文件夹中

SSM整点定时抓取新浪网IT新闻数据

新浪网首页新闻资讯爬虫项目

python爬取新浪新闻

（详细步骤）使用scrapy爬取"新浪热点新闻",进入链接获取新闻内容。

python 爬取网页新浪新闻

BeautifulSoup语法笔记（爬取新浪新闻）

使用scrapy爬取新浪新闻

Python爬虫爬取新浪新闻内容

简单python爬虫爬取新浪新闻

爬虫：新浪详情新闻爬取总结

Webdriver 爬取新浪滚动新闻

python：爬取新浪新闻的内容

python爬虫：爬取新浪新闻数据

新浪新闻标题爬取

Python网络爬虫与信息提取（15）—— 新浪网新闻爬虫并分类整理

系统提示-新浪网站的链接问题

Python:新浪网分类资讯爬虫

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

python-----爬新浪新闻标题链接

BeautifulSoip+pandas 爬取新浪国内新闻

爬取新浪社会新闻源代码

Python利用xpath和正则re爬取新浪新闻

python爬取搜狐网的新闻

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)