(爬虫類)Pythonの爬虫類01

内容:

まず、基本的な知識の導入

第二には、ページを取得します

 

まず、基本的な知識の導入

1、主にurllibは頼ら:URL(Webアドレス)+ LIB(パッケージ)は、より詳細には、Pythonドキュメント(オープンIDLE -ヘルプ- Pythonのドキュメント-あなたが照会することができます)を参照してくださいします。

図2に示すように、 URLの一般的なフォーマット(PS:[]を省略してもよいです)

プロトコル://ドメイン名[:ポート] /パス/

以下のように用語を説明されている場合:

プロトコル:よう:HTTP、HTTPS、FTP、ファイルなど。

ドメイン:ストレージ・リソース・サーバのドメイン名またはIPシステムのアドレス(およびポート番号必要な部分、例えば:8080)、例えば:www.baidu.com(ドメイン例)、ローカルホスト(ローカルIPアドレス)等が挙げられます。

:パスのような特定のアドレス・ストレージ・リソース、ディレクトリやファイル名:index.htmlをというように。

第二には、ページを取得します

はじめに依存している
インポートurllib.request
 オープンガーデンのブログのログインアドレスを(つまり、ページを取得する)、返されるオブジェクトは、応答に格納された                                                       
応答= urllib.request.urlopen(https://account.cnblogs.com/signin だけ返される読み取りの目的は、html_dにバイナリ文字列の形式で格納される 
html_d = response.read() 
バイナリ復号UTF-8文字列(主にページが符号化されるかを見るために、典型的には、UTFであります-8)                                                   
HTML html_d.decode =(" UTF-8 " 結果がプリントアウトされます                                             
印刷(HTML)                                                                
コードの表示

 

 

このブログで参照:

ゼロベースの学習ポータルのPython                      https://www.bilibili.com/video/av4050443?p=54

おすすめ

転載: www.cnblogs.com/hwh000/p/12445199.html
おすすめ