Pythonの研究ノート(17)urllib.parseモジュール

url.parse:urlは抽出URLの多様性を達成するための標準インタフェースを定義します
URLを解析し、組み合わせて、符号化、復号化:解析モジュールを使用します
インポートを使用する必要が

urllibはインポートの解析から

urlparse()はURLを識別し、セグメントに実装されます
= URL https://book.qidian.com/info/1004608738?wd=123&page=20#Catalog 
「」 "
 URL:解決されたURL 
スキームは = 『』:解決合意のURLが存在しない場合、デフォルト値を設定してもよいです合意、契約のURLがある場合、この無効なパラメータ設定
allow_fragmentsを = 真:アンカーを無視するかどうか、彼らはデフォルトを無視していないと述べTrueで、省略する場合はFalse
 「」 "
結果= parse.urlparse(URL = urlには、スキーム= HTTP 、 = allow_fragments 真)

印刷(結果)
を印刷(result.scheme)
"" "
(=スキーム' HTTPS '、netloc = ' book.qidian.com '、パス= "/情報/ 1004608738 "のparams= '' クエリ= ' WD = 123&ページ= 20である'フラグメント=、' Cataog ' 
スキームは:プロトコルを示す
ドメイン:netloc 
パス:パス
のparams パラメータ:
クエリ:クエリは、一般的にリクエストURLを取得
フラグメント:アンカーを、直接登録ページのために
表面のプルダウン位置、ページ上の特定の場所にジャンプ
"「」

urlunparse()URLの構造を達成することができます

= url_parmas(' HTTPS '' book.qidian.com '' /情報/ 1004608738 ''' ' WD = 123&ページ= 20である'' Cataog ' 
#components:オブジェクトが反復され、それがなければならない6 
結果 = parse.urlunparse(url_parmas)
印刷(結果)

"" "
 HTTPS:// book.qidian.com/info/1004608738?wd=123&page=20#Catalog 
"」

urljoin()不完全モザイクへのリンクとすることができる基本的なリンクによれば、基本的なリンクを通過することが完了したリンクであります

BASE_URL = ' https://book.qidian.com/info/1004608738?wd=123&page=20#Catalog ' 
sub_url = ' /情報/ 100861102 ' 

full_url = parse.urljoin(BASE_URL、sub_url)

プリント(full_url)

(リクエストを構築し、ポストするために使用されるリクエストパラメータを取得する)K1 = V1&K2辞書互変異性体URLパラメータをコードする配列のストリングのでurlencode()= V2

= parmas {
     ' WD '' 123 ' ' ページ'20である
} 
parmas_str = parse.urlencode(parmas)

プリント(parmas_str)

"" "
ページ= 20&WD = 123 
" ""
 
parse_qs()符号化フォーマットパラメータURL辞書をデシリアライズ
parmas_str = ' ページ= 20 WD = 123&ある' 
parmas = parse.parse_qs(parmas_str)
プリント(parmas)

"" "
 { ' ページ':[ '20 " ]、' WD ':[ ' 123 ' ]}
 ""」

 

引用符()URLエンコード形式に中国を変換することができます

= Wordの' 中国の夢' 
URL = ' http://www.baidu.com/s?wd= ' + parse.quote(ワード)
を印刷(parse.quote(ワード))
を印刷(URL)

"" "
%E4% %E5%のADの%のB8 9B%BD%E6%のA2%である。A6 
HTTP:// www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD%E6%A2%A6 
"" "
 unquote:URLエンコードは、デコードすることができ
URL = ' http://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD%E6%A2%A6 ' 
印刷(parse.unquote( URL))
"" "
 HTTP:// www.baidu.com/s?wd=中国の夢
" ""

 

おすすめ

転載: www.cnblogs.com/wuzm/p/11655035.html