例1:Jingdongは商品ページのクロール
インポート要求 のurl = "https://item.jd.com/100004770237.html" 挑戦: R = requests.get(URL) r.raise_for_status() r.encoding = r.apparent_encoding プリント(r.text [1000] ) を除く: プリント( "爬取失败")
例2:アマゾン商品ページのクロール
インポート要求 のurl = "https://www.amazon.cn/dp/B071HXVPXG/ref=lp_659039051_1_2?s=books&ie=UTF8&qid=1580353560&sr=1-2" 試し: KV = { 'ユーザーエージェント': 'のMozilla / 5.0 「} R = requests.get(URL、ヘッダー= KV) r.raise_for_status() r.encoding = r.apparent_encoding プリント(r.text [1000:2000]) を除く: プリント( "爬取失败")
三つの例:360のBaiduは提出されたキーワードを検索します
インポート要求 キーワード= "パイソン" 試み: KV = { 'Q':キーワード} R = requests.get( "http://www.so.com/s"、paramsは= KV) プリント(r.request.url) r.raise_for_status() プリント(LEN(r.text)) を除い: プリント( "爬取失败")
注:インターフェイスを提出した検索エンジンのキーワード
Baiduのキーワードインタフェースます:http://www.baidu.com/s WD =キーワード?
360キーワードインタフェースます:http://www.so.com/s Q =キーワード?
4つの例:ネットワーク・クロールの画像とストレージ
リクエストのインポート インポートOS のurl =「http://img1.3lian.com/2015/w7/97/d/25.jpg」 #設定クローリング画像の保存場所と名前、名前は元の名前の画像を使用することができるとすることもできますカスタマイズ ルート= "E:// Pythonの" [ - 1]パス= + url.splitルートを( '/') してみてください。 そうでない場合のos.path.exists(ルート): os.mkdir(ルート) されていない場合:os.path.exists(パス) 、R = requests.get(URL) を開きます(パス、 'WB')F ASと: f.write(r.content) f.close() ("ドキュメントが正常に保存")を印刷 他: 印刷(「ファイルが既に存在する」) を除い: 印刷(「失敗クロール」)
自動クエリのIPアドレス帰属:5の例
インポート要求 のurl = "http://m.ip138.com/ip.asp?ip=" 挑戦: R = requests.get(URL + '202.204.80.112') r.raise_for_status() r.encoding = r.apparent_encoding 印刷(r.text [-500:]) を除く: プリント( "爬取失败")