あなたは、その後、プログラムに「クローラ」あなたは間違いなく、無視することはできませんが学んでいます。だから、何がPythonの爬虫類を学習する前に準備する必要がありますか?
学習、不屈の心の愛
コンピュータのキーボード(システムが何をするか。私は、OS Xを使用しているので、この例では、優先されます)
一部のHTML関連の知識。習得する必要はありません、あなたは少しの行に理解することができます
Pythonの文法の基本的な知識。
あなたはこれらを持っている場合、あなたが学ぶ必要がある。この時間:(良いです)
爬虫類の0基本原理(ペンギン)
1.基本クローラのhttp:scrapy (スカート)
2.BloomフィルTE R:ブルームフィルのTE RS 例によって(2765)
3.あなたは、大規模なウェブクローラーが必要な場合は、ほとんどの分散クローラ学ぶ必要がある(824)
読んでください。どのようにシンプルな、あなただけのすべてのクラスタマシンを維持するために学ばなければならない(34)
ブラケットの内容を詳しく見て、あなたはFEIゼロ学習曲線のpython-所有遼寧省を回避することができます
効果的のような分散キューを共有することができます。最も単純な実装のpython-RQです:https://github.com/nvie/rq
組み合わせ4.rqとScrapy:darkrho / scrapy-Redisの・GitHubの
後続の処理:ページ抽出(grangier /パイソン・グース・GitHubの)、ストレージ(MongoDBの)
Pythonの火災、大きな理由は、ホーム旅行サイト登り立っている便利な各種モジュール、です -
NO.1 F12開発者ツール
迅速な位置決め要素:ソースコードを参照してください。
分析のXPath:1は、ここではGoogleのベースのブラウザを提案し、あなただけの右のソースコードのインターフェイスを見ることができます
NO.2キャプチャツール
推奨されるhttpfox、プラグインFirefoxブラウザ、GoogleのFirefoxのF12システムよりも優れていることが、ツールが付属して、あなたは契約のパケットを受信するための情報サイトを簡単に表示することができます
NO.3 XPATHチェッカー(Firefoxのプラグイン)
とても素敵なXPathのテストツールが、いくつかの小さな欠点があります:
XPathのチェッカーは不安定な絶対パスがエラーを引き起こす可能性があるので、ここでは参考として、リアルタイム分析に推奨され、いくつかの動的に生成されたアイコン(次のページがなど、一般的なボタンのリストを持っている)に遭遇、絶対パスを生成し、
「X:」これはXPath構文の初期のバージョンであり、そして今、いくつかのモジュールは、(例えばscrapyなど)互換性がない、またはエラーを回避削除などを取り除くため、見える私はのXPathのボックスの下の図は、覚えています。
NO.4正規表現テストツール
オンライン正規表現のテスト、あなたの手、また支援解析を実施するために使用!使用することができ、多くの準備ができて、正規表現がありますが、も参照することができます!