python 爬虫(一)urllib使用demo

import urllib.request

#向指定的url地址发起请求,并返回服务器响应的数据(文件的对象)
response = urllib.request.urlopen("http://www.baidu.com")


#直接将文件写入指定路径,
filePath = r"C:/Users/zyy/PycharmProjects/untitled/爬虫/mile1.html"
response2 = urllib.request.urlretrieve(r"http://www.baidu.com",filePath)
urllib.request.urlcleanup() #清除缓存


'''
1)读取文件的全部内容
data = response.read()
'''

'''
2)读取一行,需要循环读取
data = response.readline()
'''

'''
3)读取所有行,并把读取到的数据赋值给一个列表变量  -->建议使用
data列表的每一条都是
data = response.readlines()
for dd in data:
    str = dd.decode("utf-8")  #将bytes字节转换成字符串
'''

'''
response的常用方法
1)response.info()
返回当前环境有关信息

2)response.getcode()
返回状态码
200     -->访问成功
304     -->客户已经执行了GET,但文件未变化(缓存)
404     -->网页不存在/url出错
500     -->服务器出现问题

3)response.geturl()
返回当前正在爬取的url地址
'''
data = response.readlines()
for dd in data:
    str = dd.decode("utf-8")
print(response.geturl())

filePath就是你想要保存爬取到的网页文件,最好是保存到html文件中,这个文件地址不存在的话程序会自动生成

猜你喜欢

转载自blog.csdn.net/weixin_40938748/article/details/85276514