例1 - クロールページ
1つの インポート要求 2 URL = " HTTPS // itemjd.com / 2646846.html " 3 試み: 4 、R =要求。取得(URL) 5 r.raise_for_status() 6 = r.encodingをr.apparent_encoding 7 :プリント([r.text 1000年]) 8を 除い: 9 プリント(" 爬取失败")
通常のクロールページ
例二 - のページをクロール
1つの インポート要求 2 URL = " https://www.amazon.cn/gp/product/B01M8L5Z3Y " 3 試み: 4 KV = { ' ユーザーエージェント':' のMozilla / 5.0 ' } 5 R = requests.get(URL 、ヘッダー= KV) 6 r.raise_for_status() 7 r.encoding = r.apparent_encoding 8 プリント(r.text [1000:2000 ]) 9を 除い: 10 プリント(" 爬取失败")
サイトへのユーザー名へのアクセス、シミュレートブラウザ要求には制限があります
三つの例 - 検索エンジンのクロール
1 #百度のインターフェイスキーワード:HTTP:WD = //www.baidu.com/sキーワード? 2 #画像インタフェース360:HTTP:?Q = //www.so.com/sキーワード 。3つの インポート要求 4。 =キーワード" パイソン" 5。 試し: 6 キロボルト= { ' WD ' :}キーワード 7 R&LT requests.get =(" http://www.baidu.com/s "、paramsは= キロボルト) 8。 印刷(r.request。 URL) 9。 r.raise_for_status() 10 印刷(LEN(r.text)) 11。 を除い: 12です 印刷(「クロール失敗」)
------------------------------------------ --------
インポート要求
キーワード= "パイソン"
試み:
KV = { 'Q':キーワード}
R = requests.get( "http://www.so.com/s"、paramsは= KV)
プリント(r.request.url)
r.raise_for_status()
プリント(LEN(r.text))
を除い:
プリント( "爬取失败")
4つの例: - クロール絵
1つの インポート要求 2 輸入OS 3のurl = " http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg " 4ルート= " F://写真// " 5パス=ルート+ url.split (' / ') - 1 ] 6 試み: 7 なら ないos.path.exists(ルート): 8 os.mkdir(ルート) 9 なら ないos.path.exists(パス): 10 R = requests.get( URL) 11 オープン(パスを持ちます、"WB 「F AS): 12は f.write(r.content) 13がある f.close() 14 印刷(" ファイルが正常である保存" ) 15 、他: 16 印刷は、(" ファイルが既に存在する" ) 17。 以外: 18で 印刷するには(「クロール失敗を取ります」)
クロールや画像を保存します
クエリに属する5つの--ipアドレスの例:
http://m.ip138.com/ip.asp?ip=ipaddress
URL = " http://www.ip138.com/iplookup.asp?ip= " 挑戦: R = requests.get(URL + ' 202.204.80.112 ' + ' &アクション= 2 ' ) r.raise_for_status() r.encoding = r.apparent_encoding 印刷(r.text [-500 :]) を除く: プリント(" 爬取失败")
抗登るがあります。