Python爬虫新闻实例代码

版权声明:未经同意窃取和转载我的内容,如果涉及到权益问题,后果自负! https://blog.csdn.net/weixin_41605937/article/details/84311953
"新闻的爬取到本地的"
# 思路:先爬取首页 然后在通过正则表达式获取所有的新闻链接 然后在爬出各类的新闻 并存储本地
#http://news.sina.com.cn/
html="http://news.sina.com.cn/"
data=urllib.request.urlopen(html).read()
newdata=data.decode("utf-8","ignore")
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(newdata)
for i in range(len(allurl)):
    try:
        print("这是第%d次爬取成功了"%i)
        thisurl=allurl[i]
        file="D:/PythonFile/数据挖掘/网页/"+str(i)+".html"
        urllib.request.urlretrieve(thisurl,file)
    except urllib.error.URLError as e:#这个异常都是通用的一种代码
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

print("爬虫结束")

猜你喜欢

转载自blog.csdn.net/weixin_41605937/article/details/84311953