import urllib.request
#向指定的url地址发起请求,并返回服务器响应的数据(文件的对象)
response = urllib.request.urlopen("http://www.baidu.com")
#直接将文件写入指定路径,
filePath = r"C:/Users/zyy/PycharmProjects/untitled/爬虫/mile1.html"
response2 = urllib.request.urlretrieve(r"http://www.baidu.com",filePath)
urllib.request.urlcleanup() #清除缓存
'''
1)读取文件的全部内容
data = response.read()
'''
'''
2)读取一行,需要循环读取
data = response.readline()
'''
'''
3)读取所有行,并把读取到的数据赋值给一个列表变量 -->建议使用
data列表的每一条都是
data = response.readlines()
for dd in data:
str = dd.decode("utf-8") #将bytes字节转换成字符串
'''
'''
response的常用方法
1)response.info()
返回当前环境有关信息
2)response.getcode()
返回状态码
200 -->访问成功
304 -->客户已经执行了GET,但文件未变化(缓存)
404 -->网页不存在/url出错
500 -->服务器出现问题
3)response.geturl()
返回当前正在爬取的url地址
'''
data = response.readlines()
for dd in data:
str = dd.decode("utf-8")
print(response.geturl())
filePath就是你想要保存爬取到的网页文件,最好是保存到html文件中,这个文件地址不存在的话程序会自动生成