python urllib中的urlparse模块

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/JBlock/article/details/79227046

urlparse主要是URL的分解和拼接,分析出URL中的各项参数,可以被其他的URL使用。

主要的函数有:

1、urlparse

将URL分解为6个片段,返回一个元组,包括协议、基地址、相对地址等等

[python]  view plain  copy
  1. import urlparse  
  2. url = urlparse.urlparse('http://blog.csdn.net/?ref=toolbar')  
  3. print url  

输出结果为:

ParseResult(scheme='http', netloc='blog.csdn.net', path='/', params='', query='ref=toolbar', fragment='')

scheme是协议,netloc是服务器地址,path是相对路径,params是参数,query是查询的条件。

如果知道服务器的地址的话,可以以服务器的地址为基地址,拼接其他的相对路径,组成新的URL。

python3:

调用:urlparse(url).scheme/netloc,用来在其它地方使用。

python3.x导入:

from urllib.parse import urlparse

2、urlsplit

和urlparse的作用差不多,将URL分解为5个片段,返回一个元组。返回一个包含5个字符串项目的元组:协议、位置、路径、查询、片段。

[python]  view plain  copy
  1. import urlparse  
  2. url = urlparse.urlsplit('http://blog.csdn.net/?ref=toolbar')  
  3. print url  

运行结果为:

SplitResult(scheme='http', netloc='blog.csdn.net', path='/', query='ref=toolbar', fragment='')

3、urljoin

基地址和相对地址的拼接。

urlparse.urljoin(base, url[, allow_fragments])

4、urlunparse

和urlparse的效果相反,可以把6个部分拼接起来。

猜你喜欢

转载自blog.csdn.net/JBlock/article/details/79227046
今日推荐