python爬取新浪新闻 - 代码天地

python爬取新浪新闻

其他 2018-09-15 23:25:58 阅读次数: 0

一、这里提前解释说明：

urlretrieve(url, filename=None, reporthook=None, data=None)

参数filename指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）
参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该
回调，我们可以利用这个回调函数来显示当前的下载进度。
参数data指post导服务器的数据，该方法返回一个包含两个元素的(filename, headers)
元组，filename 表示保存到本地的路径，header表示服务器的响应头

 1 #爬取新浪新闻
 2 import urllib.request
 3 import re 
 4 data=urllib.request.urlopen(“http://news.sina.com.cn/”).read()
 5 data2=data.decode(“utf-8”,”ignore”)
 6 #"ignore"忽略参数出现的错误
 7 pat='href="(http://news.sina.com.cn/.*?)">'
 8 allurl=re.compile(pat).findall(data2)
 9 for i in range(0,len(allurl)):
10     try:
11         print("第"+str(i)+"次爬取")
12         thisurl=allurl[i]
13         file="F:/python/sinanews"+str(i)+".html"
14         urllib.request.urlretrieve(thisurl,file)
15         print("成功")
16     except urllib.error.URLError as e:
17         if hasattr(e,"code"):
18            print(e.code)
19         if hasattr(e,"reason"):
20            print(e.reason)

若有疑问可联系博主进一步探讨python小知识

猜你喜欢

转载自www.cnblogs.com/du1269038969/p/9652920.html

python爬取新浪新闻

爬取新浪新闻

python 爬取网页新浪新闻

简单python爬虫爬取新浪新闻

Python爬虫爬取新浪新闻内容

python：爬取新浪新闻的内容

python爬虫：爬取新浪新闻数据

Python利用xpath和正则re爬取新浪新闻

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

python学习，新浪新闻的爬取和CSDN博文爬取

BeautifulSoup语法笔记（爬取新浪新闻）

使用scrapy爬取新浪新闻

爬虫：新浪详情新闻爬取总结

Webdriver 爬取新浪滚动新闻

新浪新闻标题爬取

Python数据挖掘学习笔记（9）爬取新浪新闻首页的所有新闻

python3爬取新浪NBA新闻信息（待完善）

python爬虫爬取新浪新闻的评论数以及部分评论

python针对新浪新闻国内新闻爬取的爬虫，存入mysql数据库，也可输出为txt文件

python 爬取腾讯新闻

BeautifulSoip+pandas 爬取新浪国内新闻

新浪网(sina)新闻链接爬取

爬取新浪社会新闻源代码

Python爬取新浪微博评论

python爬取新浪财经的股票信息

【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅

（详细步骤）使用scrapy爬取"新浪热点新闻",进入链接获取新闻内容。

Python之路__爬虫篇:新浪新闻爬取回顾（四）

Python之路__爬虫篇:新浪新闻爬取回顾（三）

Python之路__爬虫篇:新浪新闻爬取回顾（二）

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)