版权声明:未经同意窃取和转载我的内容,如果涉及到权益问题,后果自负! https://blog.csdn.net/weixin_41605937/article/details/84311953
"新闻的爬取到本地的" # 思路:先爬取首页 然后在通过正则表达式获取所有的新闻链接 然后在爬出各类的新闻 并存储本地 #http://news.sina.com.cn/ html="http://news.sina.com.cn/" data=urllib.request.urlopen(html).read() newdata=data.decode("utf-8","ignore") pat='href="(http://news.sina.com.cn/.*?)">' allurl=re.compile(pat).findall(newdata) for i in range(len(allurl)): try: print("这是第%d次爬取成功了"%i) thisurl=allurl[i] file="D:/PythonFile/数据挖掘/网页/"+str(i)+".html" urllib.request.urlretrieve(thisurl,file) except urllib.error.URLError as e:#这个异常都是通用的一种代码 if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason) print("爬虫结束")