1.urlparse模块
urlparse.urlparse() 将一个url转化为(prot_sch, net_loc, path, params, query, frag)的元组
urlparse.urlunparse() 将(prot_sch, net_loc, path, params, query, frag)拼接成一个url
urlparse.urljoin() 将url1的base部分与url2的path部分组装成新的url
例如:
>>> import urlparse >>> urlparse.urlparse("http://www.python.com/doc/FAQ.html") ParseResult(scheme='http', netloc='www.python.com', path='/doc/FAQ.html', params='', query='', fragment='')
2.urllib模块
使用urllib.urlopen(urlstr, postQueryData)可以返回一个文件对象,用于下载文件
获取到文件对象后,可以使用下面的方法操作文件对象:
f.read([bytes]) 从文件中读出所有或bytes个字节
f.readline() 从文件中读出一行
f.readlines() 将文件的每一行读出返回一个列表
f.close() 关闭文件对象
f.fileno() 返回文件的句柄
f.info() 返回文件的MIME头文件
f.geturl() 返回文件真正的url
使用urllib.urlretrieve(urlstr, localfile=None, downloadSta-tusHook=None)可以下载文件并返回(filename, minme_hdrs)的元组
使用urllib.quote()和urllib.quote_plus()可以将url进行编码
使用urllib.unquote()和urllib.unquote_plus()可以将url进行反编码
使用urllib.urlencode(paramDict)可以将参数字典拼接成url
3.urllib2模块
使用urllib2可以解决更复杂的url打开问题,典型的应用是有基本认证需求的web站点