初心者のPythonの爬虫類

urllibはは、簡単なurllibは爬虫類のためのモジュールをモジュールのpython3。

#このモジュールを参照してくださいurllibはインポート要求から

輸入再

 

デフのgetObject(URL): 

 urlObject = request.urlopen(URL)#は、コンテキストを取得するためのURLは、httpリクエストを開いて、オブジェクトは、http REPONSEです

リターンのgetObject

デフgetjpglist(データ):#は画像のパスに一致する正規表現を使用

 リスト= re.findall(r'src = httpsを。+?。JPG」、データ)

 リターンリスト

 

=のgetObject httpObject( " https://www.csdn.net/ ")#GETこのHTTP REPONSEオブジェクト

#httpObject .geturl()あなたがアドレスを取得することができます

#httpObjectの.info()のヘッダを取得します

HTTPのステータスを取得する#httpObject .getcode()

データ= httpObject .read()。decado( 'UTF-8')#​​GETコンテンツ、そして、我々はあなたが望むものを定期的にスクリーニングを使用してコンテンツを取得することができます

     JListの= getjpglist(データ)

グローバルN#は、グローバル変数を宣言します

JListの中のjpgのため:コレクションを結果の画像のアドレス#サイクル、それを印刷

  印刷(リスト)

  N = N + 1

あなたが画像をダウンロードしたい場合は#がrequest.urlretrieve()メソッドを使用することができます

 

 

 

 

 

 

 

 

 

发布了20 篇原创文章 · 获赞 7 · 访问量 1万+

おすすめ

転載: blog.csdn.net/qrnhhhh/article/details/82589418