Pythonの爬虫類3 - urllibは要求解析モジュールライブラリ

スプリット、マージと変換を達成するためのURL、URL解析定義する標準インタフェース処理。

1.urlparse()URLスプリット

urlparse(urlstring、スキーム= ''、allow_ragments =真)

  • スキーム:時間がないと、デフォルトのプロトコル、契約の力にURLのエントリであれば、
  • allow_fragments:フラグメントを無視するかどうかは、無視して、パス、パラメータ、またはクエリの一部として解決されます。

6節にURLスプリット:

  • スキーム:合意。
  • netloc:ドメイン名;
  • パス:アクセスパス。
  • params:パラメーター。
  • クエリ:クエリ。
  • フラグメント:アンカー

値のタプル、利用可能なパラメータまたはインデックス結果。

コード:

結果:

 

 

 

 

 2.urlunparse()URL合併

urlunparse([スキーム、netloc、経路、paramsは、クエリ、frament])

  • 指定可能なパラメータのイテレート可能オブジェクト。
  • 番号は、そうでない場合は、エラー6でなければなりません

コード:

 

結果:

 

 

 

3.urlsplit()

 

 そしてurlparseは()に類似しているが、別のparamsのない部分は、paramsは経路中に、マージを分割します

4.urlunsplit()

そしてurlunparse()が類似しており、パラメータ間の唯一の違いは、5に渡されます

5.urljoin()

最初の引数としてBASE_URLは、2番目のパラメータとして新しい接続が、この方法はスキーム、netloc、パス三つの部分にBASE_URLを解析し、新しいリンクは、実際に一部を添加することです。

BASE_URLを使用せずに新しいリンクを使用してこの三部、どのように新たなリンクが存在する場合。

BASE_URL paramsは、クエリでは、フラグメントは動作しません。

6.urlencode()

場合は、要求パラメータ、辞書のパラメータは、利用可能なURLパラメータへのシーケンスの設定に便利です。

7.parse_qs()

 そして、でurlencode()逆に、URLパラメータデシリアライズ辞書。

8.parse_qsl()

タプルのリストにURLパラメータ、リストなどの結果、タプルのリストの各要素。

9.quote()

中国のURLエンコード形式のパラメータにURLパラメータは、中国の回避の歪みを引き起こします。

10.unquote()

そして、逆に)(引用

 

おすすめ

転載: www.cnblogs.com/rong1111/p/12143001.html