最近のPythonの爬虫類のグループでは、米国のグループのデータをオンライン顔の内側に多くの人々を見ては、に非常に興味を持っているが、また、その後、5000入札データ美・グループをクロール、また何人かの人々に非常に印象的な価格をされていますか????その時無知な力であり、ときに私はすべてのデータをクロールし、5000はあまり感じていることがわかりました!
爬虫類のアイデア
多くの爬虫類のフレームワークがありますが、私は、増分クロールを達成するために、次のラフなアイデアを使用しました。
-
リクエスト(セレン)クロールの取引。
-
クロールデータは既にデータベースに存在するかどうかを決定するステップと
-
データフレームのオブジェクトに保存します。
-
データベースに挿入。
私たちの最後のステップに今、URLに事業の全部を取得した後、データ・ページの異なる種類が異なることに留意すべきである。例えば、ホテル
だから、さまざまなタイプのために、あなたは別の解析関数を記述する必要があります。最後の時間は速く、非常に厳格な制限が米国のグループ、最高のマルチスレッド要求数秒を追求するべきではありませんクロールした後、ゆっくりとそれを実行してみましょう
環境の基本的な構成
バージョン:Python3.6
システム:Windows
モジュール:CSV、時間、リクエスト、JSON
コードの一部
クロール結果は、4つのカテゴリに分類されます。
シネマ8195
ホテル211 129
食品カテゴリ490 928
ライフカテゴリ432 803
对Python感兴趣或者是正在学习的小伙伴,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每天都有大牛定时讲解Python技术,分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地
总共 115万 条数据
看到这么多的数据,我突然感觉5K都少了呀!