プロジェクトの下、新たな画像ディレクトリ
インポート要求
pyqueryインポートpyquery AS PQから
#は自動的にブラウザのユーザーエージェント要求ヘッダを生成
fake_useragentインポートユーザーエージェントから
#アナログブラウザリクエストヘッダ
ヘッダー= {
#要求タイプ
「受け入れる」:「text / htmlの 、アプリケーション/ XHTML + xmlの、アプリケーション/ XML; Q = 0.9、画像/ WEBP、画像/ APNG、* / *; Q = 0.8、ファイルアプリケーション/署名交換; V = B3」、
#ブラウザの種類は、(いくつかのURLサーバは、ポケット加工ブラウザを検出し、種)ランダム発生型ブラウザとすることができる
「ユーザーエージェント」:.ユーザーエージェント()ランダム
}
#グラブ各テーブル画像のURL
index_data DEF(ページ):
URL =「https://www.169tp.com/gaogensiwa/list_3_{}.html'.format(page)
#ホームのデータ取得
応答= requests.get(URL、ヘッダ=ヘッダ).content .decode( 'GBK')
#は、ページデータの初期化
DOC = PQ(レスポンス)
必要なレベルのブロックリストの<a>をフェッチ#を
データ= DOC( 'product01リチウムのA ')項目()。
#遍历A获取HREF链接
iについてのデータで:
detail_url = i.attr('のhref')
detail_data(detail_url)
#詳細]ページのURLを取得
DEF detail_data(URLの)
応答= requests.get(URLやヘッダー=ヘッダ).content.decode( 'GBK')
DOC = PQ(応答)
img_url = DOC( 'big_img P IMG')項目()。
iについてimg_url中:
IMAGE_URL = i.attr( 'SRC')
download_img(IMAGE_URL)
カウント= 0
保存画像番号の
DEFのdownload_img(IMAGE_URL):
グローバルCOUNTの
レスポンス= requests.get(IMAGE_URL、ヘッダ=ヘッダ).content
#ファイルの保存
、オープンで( '画像/ { } jpg'.format(数)、' AB「)などF#B進ライト追加ファイル
f.write(応答)
COUNT = + 1。
#20 /ドメイン名の前エキスは、観測されたページネーションを変更します
iについての範囲(1、20):
index_data(I)