Pythonの爬虫類プロジェクトの戦闘 - キャッツアイムービーをクロール

Pythonの爬虫類を学ぶためにどのように、爬虫類の困難は、実際の爬虫類自体に存在しません。しかし、抗爬虫類対策の多種多様。小さなケースの下には、あなたとのpythonの魅力の味を共有することができます。

Pythonの爬虫類を学ぶためにどのように、爬虫類の困難は、実際の爬虫類自体に存在しません。しかし、抗爬虫類対策の多種多様。小さなケースの下には、あなたとのpythonの魅力の味を共有することができます。

Pythonの爬虫類を学ぶためにどのように、爬虫類の困難は、実際の爬虫類自体に存在しません。しかし、抗爬虫類対策の多種多様。小さなケースの下には、あなたとのpythonの魅力の味を共有することができます。

「悲しみの川を」クロールキャッツアイ情報プロジェクトシェア出典:

1  「」 ' 
2  、私はあなたが学習過程で追加する方法を知らない何を
 3  Qun、934 109 170ケリ交流学習のPython
 4  グループを、良いチュートリアル、開発ツールと電子書籍があります。
5  共有のpython現在のビジネスニーズとあなたの才能とどのように良い、ゼロベースからの学習のpython、どのような内容を学びます。
。6  '' ' 
7つの インポート要求
 8  から fake_useragent インポートユーザーエージェント
 。9  インポートJSON
 10  インポートpymongo
 。11   
12である データベースに格納された
13である CLIEN = pymongo.MongoClient(=ホスト' データベース内のIPを埋める' 14 DB = clien.The_cat_s_eye_essay
 15コル=db.eye_essay
 16   
。17の #は、ユーザaengtのランダムに生成されたオブジェクトの作成
18がある UA = ユーザーエージェント()
 19は  
れる20  我々は解説したい抽出
21は DEFのparse_json(JSON):
 22である     IF JSON:
 23である          json.get =(商品' CMTS ' 24          I = 0
 25          のためのアイテムアイテム:
 26である              データ= {
 27                  ' ID ':item.get(' ニックネーム' )、
 28                  ' 解説':item.get(' コンテンツ' )、
 29                  ' スコア':item.get(' スコア' )、
 30                  ' ユーザの場所':item.get(' cityName ' )、
 31                  'のコメント時間':item.get(' startTime ' )、
 32                  ' 返信':item.get(' 返信' )、
 33は                 ' 性別':item.get(' 性別34              }
35              #のcoll.insert_one(データ)
36        プリント(データ)
 37   
38である  
39   
40   
41れる DEF Crawl_JSON():
 42である      UA = ユーザーエージェント()
 43は、      ヘッダ= {
 44である         ' ユーザーエージェント' :ua.randomは、
 45          ' ホスト'' m.maoyan.com ' 46は、' リファラー'' http://m.maoyan.com/movie/1217236/comments?_v_=yes ' 47     }
 48 49の#の猫フィルムインターフェース解説         
   
     
50      オフセットキャッツアイ型AJAX内のデータが最初に変更されるため、0 15~30ので、2ページ目が次に等価15分の100リサイクルされる、第3時間で
51      自信データ猫AJAXを観察し知っているリクエストパラメータ
52は、      ページ100 =
 53である      U = 0
 54である     ために範囲(ページ):
 55          試み56がさ              =オフセットU
 57がある              のstartTime = ' 2018年10月11日' 
58              comment_api = " HTTP://メートル。 maoyan.com/mmdb/comments/movie/1217236.json?_v_=yes&offset={0}&startTime={1}%2021%3A09%3A31 " .format(のstartTime、オフセット)
 59              发送GET请求
60              response_coment = requests.get(URL = comment_api、ヘッダー= ヘッダ)
 61              json_comment = response_coment.text
 62              json_comments = json.loads(json_comment)
 63              parse_json(json_comments)
 64              U + = 15
 65          以外Eとして例外:
 66              プリント' 出现错误:' 、e.args)
 67   
68   
69   
70 parse_json(Crawl_JSON())

 

おすすめ

転載: www.cnblogs.com/xiaoyiq/p/11441467.html