Pythonの爬虫類を学ぶためにどのように、爬虫類の困難は、実際の爬虫類自体に存在しません。しかし、抗爬虫類対策の多種多様。小さなケースの下には、あなたとのpythonの魅力の味を共有することができます。
Pythonの爬虫類を学ぶためにどのように、爬虫類の困難は、実際の爬虫類自体に存在しません。しかし、抗爬虫類対策の多種多様。小さなケースの下には、あなたとのpythonの魅力の味を共有することができます。
Pythonの爬虫類を学ぶためにどのように、爬虫類の困難は、実際の爬虫類自体に存在しません。しかし、抗爬虫類対策の多種多様。小さなケースの下には、あなたとのpythonの魅力の味を共有することができます。
「悲しみの川を」クロールキャッツアイ情報プロジェクトシェア出典:
1 「」 ' 2 、私はあなたが学習過程で追加する方法を知らない何を 3 Qun、934 109 170ケリ交流学習のPython 4 グループを、良いチュートリアル、開発ツールと電子書籍があります。 5 共有のpython現在のビジネスニーズとあなたの才能とどのように良い、ゼロベースからの学習のpython、どのような内容を学びます。 。6 '' ' 7つの インポート要求 8 から fake_useragent インポートユーザーエージェント 。9 インポートJSON 10 インポートpymongo 。11 12である #データベースに格納された 13である CLIEN = pymongo.MongoClient(=ホスト' データベース内のIPを埋める' ) 14 DB = clien.The_cat_s_eye_essay 15コル=db.eye_essay 16 。17の #は、ユーザaengtのランダムに生成されたオブジェクトの作成 18がある UA = ユーザーエージェント() 19は れる20 #我々は解説したい抽出 21は DEFのparse_json(JSON): 22である IF JSON: 23である json.get =(商品' CMTS ' ) 24 I = 0 25 のためのアイテムでアイテム: 26である データ= { 27 ' ID ':item.get(' ニックネーム' )、 28 ' 解説':item.get(' コンテンツ' )、 29 ' スコア':item.get(' スコア' )、 30 ' ユーザの場所':item.get(' cityName ' )、 31 'のコメント時間':item.get(' startTime ' )、 32 ' 返信':item.get(' 返信' )、 33は ' 性別':item.get(' 性別」) 34 } 35 #のcoll.insert_one(データ) 36 プリント(データ) 37 38である 39 40 41れる DEF Crawl_JSON(): 42である UA = ユーザーエージェント() 43は、 ヘッダ= { 44である ' ユーザーエージェント' :ua.randomは、 45 ' ホスト':' m.maoyan.com ' 46は、' リファラー':' http://m.maoyan.com/movie/1217236/comments?_v_=yes ' 47 } 48 49の#の猫フィルムインターフェース解説 50 #オフセットキャッツアイ型AJAX内のデータが最初に変更されるため、0 15~30ので、2ページ目が次に等価15分の100リサイクルされる、第3時間で 51 #自信データ猫AJAXを観察し知っているリクエストパラメータ 52は、 ページ100 = 53である U = 0 54である ために私に範囲(ページ): 55 試み: 56がさ =オフセットU 57がある のstartTime = ' 2018年10月11日' 58 comment_api = " HTTP://メートル。 maoyan.com/mmdb/comments/movie/1217236.json?_v_=yes&offset={0}&startTime={1}%2021%3A09%3A31 " .format(のstartTime、オフセット) 59 #发送GET请求 60 response_coment = requests.get(URL = comment_api、ヘッダー= ヘッダ) 61 json_comment = response_coment.text 62 json_comments = json.loads(json_comment) 63 parse_json(json_comments) 64 U + = 15 65 以外Eとして例外: 66 プリント(' 出现错误:' 、e.args) 67 68 69 70 parse_json(Crawl_JSON())