Urllib库爬取网页

1、urllib.request.urlopen

用于爬取网页:

file = urllib.request.urlopen("https://www.baidu.com")

注意:1、文件的读取:

    1.按行读取方式readline()

    readline()每次读取文件中的一行,需要使用永真表达式循环读取文件。但当文件指针移动到文件的末尾时,依然使用readline()    读    取    文    件    将    出    现    错    误。    因    此程序中需要添加1个判断语句,判断文件指针是否移动到文件的尾部,并且通过该语句中断循环。

    2.多行读取方式readlines()

    使用readlines()读取文件,需要通过循环访问readlines()返回列表中的元素。函数readlines()可一次性读取文件中多行数据。

    3.一次性读取方式read()读取文件最简单的方法是使用read(),read()将从文件中一次性读出所有内容,并赋值给1个字符串变量。


2、文件的写入保存:

    1、python基本文件操作:write:

fhandle = open("D:/1.html","wb")
fhandle.write(data)
fhandle.close()

    2、urllib.request.urlretrieve(url , filename = 本地文件地址)

filename = urllib.request.urlretrieve("https://www.baidu.com" , filename = "D:/1.html")

    3、urllib.request.urlcleanup():

    加在上述的代码后,用于清除urlretrieve造成的缓存垃圾。




猜你喜欢

转载自blog.csdn.net/qq_40276310/article/details/80110900