WebMagic機能
PageProcessorを達成
- 抽出要素を選択可能
:WebMagicは、主に3つの抽出技術を使用したのXPath、正規表現やCSSセレクタを。さらに、コンテンツJSON形式は、JsonPathを解析するために使用することができます。
XPathの
CSSセレクタ
CSSとXPathセレクタは、類似した言語です。それよりもXPathは、書き込みに簡単ですが、あなたは複雑な抽出が少しルール書く場合、それは比較的に少し問題です。
正規表現
正規表現は、普遍的な言語のテキスト抽出しています。ここでは、一般的にURLアドレスを取得するために使用されています。
抽出APIエレメント
選択は、抽出素子チェーンAPIに関連WebMagicのコア機能です。選択可能な利用・インタフェース、ページ要素が抽出の直接チェーンを完成することができ、抽出された細部を気にする必要はありません。
前述の例で見ることができる、page.getHtml()が返したHTMLオブジェクトを実装し、選択可能インタフェースを。抽出部と結果取得部:このインタフェースは、メソッドは、2つのカテゴリに分類含ま。
APIの取得結果
呼び出しを連鎖したとき、我々は一般的に文字列型の結果を取得したいです。今回は結果を得るためにAPIを使用する必要があります。
抽出規則は、いずれかのXPath、CSSセレクタまたは正規表現は、複数の要素を抽出することは常に可能です。WebMagicこれらは統一された、あなたは異なるAPIの1つの以上の要素を介して取得することができます。
リンクを取得します
ではページの処理ロジック、 Googleのクローラは近い完了になりますが、今の問題があります:サイトのページには、我々が表示されているすべてのことができない最初からのたくさんあるし、爬虫類ではないか、発見するためのリンクをたどります不可欠な部分。
使用パイプラインの結果の保存
呼ばれる結果保存するコンポーネントWebMagic パイプラインを。私たちは、今ある「コンソール出力」それはパイプラインが完成に内蔵され、それが呼ばれているConsolePipeline 。
まあ、私は今の結果使用したいファイルに保存し、どのようにそれを行うには?のみにするパイプラインがそれに「FilePipeline」を置き換え実現