1. Python3爬虫 保存抓取网页的html
REF: https://blog.csdn.net/u014453898/article/details/73459938
2017年06月19日 12:15:05 ZJE_ANDY 阅读数:1602
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014453898/article/details/73459938
下载网页html 通过使用 urllib库的urlretrieve()方法
直接下载某URL的HTML:
-
#-*- coding:utf-8 -*-
-
import urllib.request
-
url='http://www.163.com'
-
urllib.request.urlretrieve(url,'./htm2.txt')#保存在当前路径的htm2.txt中
urlretrieve()的第一个参数:表示要抓取的URL
第二个参数:表示抓取完HTML保存在哪个路径
2. Python3爬虫 下载网页的html
REF:https://www.jb51.net/article/140540.htm
import urllib.request
def getHtml(url):
html = urllib.request.urlopen(url).read()
return html
def saveHtml(file_name, file_content):
# 注意windows文件命名的禁用符,比如 /
with open(file_name.replace('/', '_') + ".html", "wb") as f:
# 写文件用bytes而不是str,所以要转码
f.write(file_content)
aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)
print("下载成功")