Python爬虫新闻实例代码 - 代码天地

Python爬虫新闻实例代码

其他 2018-12-09 20:45:49 阅读次数: 0

版权声明：未经同意窃取和转载我的内容，如果涉及到权益问题，后果自负！ https://blog.csdn.net/weixin_41605937/article/details/84311953

"新闻的爬取到本地的"
# 思路：先爬取首页 然后在通过正则表达式获取所有的新闻链接 然后在爬出各类的新闻 并存储本地
#http://news.sina.com.cn/
html="http://news.sina.com.cn/"
data=urllib.request.urlopen(html).read()
newdata=data.decode("utf-8","ignore")
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(newdata)
for i in range(len(allurl)):
    try:
        print("这是第%d次爬取成功了"%i)
        thisurl=allurl[i]
        file="D:/PythonFile/数据挖掘/网页/"+str(i)+".html"
        urllib.request.urlretrieve(thisurl,file)
    except urllib.error.URLError as e:#这个异常都是通用的一种代码
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

print("爬虫结束")

猜你喜欢

转载自blog.csdn.net/weixin_41605937/article/details/84311953

Python爬虫新闻实例代码

Python小白的爬虫代码——澎湃新闻列表

python爬虫高校新闻

python爬虫搜狐新闻

爬取汽车之家新闻图片的python爬虫代码

Python : 实例: XML 新闻

举例python各个爬虫框架的实例代码

python爬虫实践（腾讯新闻）

python实现新浪新闻爬虫

Python BeautifulSoup 爬虫入门笔记 --- 新闻爬虫

Python 教你 4 行代码开发新闻网站通用爬虫

如何用 100 行 Python 代码实现新闻爬虫？这样可算成功？

python爬虫实例 python爬虫实例

Python使用requests及BeautifulSoup构建爬虫实例代码

Python爬虫爬取煎蛋网图片代码实例

Python网络爬虫信息提取mooc代码实例

Python爬虫汽车之家新闻消息

python爬虫——爬取汽车之家新闻

简单python爬虫爬取新浪新闻

Python爬虫爬取新浪新闻内容

python爬虫之爬取腾讯新闻

python爬虫【二】爬取新闻

Python 新浪实时新闻爬虫

python爬虫实战——爬取腾讯新闻！

python学习之新闻爬虫（五）

爬虫 python 爬取澎湃新闻

python爬虫：爬取新浪新闻数据

Python爬虫 | 爬取环境新闻实战

【Python】什么是爬虫，爬虫实例

【爬虫实践】中文突发事件新闻爬取实例

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)