scrapy使用-LinkExtractor

背景:

  一部のコンテンツのクロールは、タグの下に特定の情報のウェブサイトを取得する必要があると、私たちは効率的では次のような情報、を通してそれを取得し、各買収場合、これらのラベルの下のリンクを取得する必要があり、時間の複雑性O(最初のリンクを取得し、その後、コンテンツを取得した場合、Nが、時間複雑度はO(N)+ O(n)は、各々が2の深さを実行^ 2)であり、時間の複雑さはO(N)。効率であります大幅にクロールされた全体の駅のために増加しました。

()#allow可能(正規表現(またはリスト)) - 1つの正規表現(または正規表現のリスト)、(絶対)のURLを抽出するために一致しなければなりません。全く(または空の)場合、それはすべてのリンクと一致しません。
()#deny(正規表現または正規表現のリストを)拒否-正規表現(または正規表現のリストを)、(絶対)URLは(すなわち、ないエキス)を排除するために一致している必要があります。これは、許可パラメータよりも優先されます。もしいない(または空)、それは任意のリンクを除外しません。
allow_domains()#allow_domains(STRまたはリスト) -または文字列のドメインのリンクされたリストを抽出するために考慮されるべき単一の値
deny_domains()#deny_domains(STRまたはリスト) - 、または単一の値は、抽出のために考慮することができません文字列のリンクリストドメイン
deny_extensions()#deny_extensions(リスト) -単一の値または文字列のリストを無視すべき抽出リンクに延び含みます。scrapy.linkextractorsパッケージで定義されたリストIGNORED_EXTENSIONSに与えられていない場合は、それがデフォルトになります。
restrict_xpaths()#1 restrict_xpaths(STRまたはリスト) -領域において抽出されるべき応答を定義するXPath(又はXPathのリスト)が、リンクされています。与えられた場合は、のみ、選択したテキストのXPathのリンクがスキャンされます。次の例を参照してください。
リンク応答を抽出すべき領域を定義するためのCSSセレクタ(または選択リスト)、 - restrict_css()#1 restrict_css(STRまたはリスト)。私たちは、同じ行動restrict_xpathsを持っています。ラベル(文字列またはリスト) -考慮すべきリンクを抽出することで、タグやラベルのリスト。デフォルトです。( ''、 '領域' )
ATTRS()#のattrsに(リスト) - プロパティまたは属性のリスト考慮すべきエキスリンクに探して(のみこれらのパラメータにラベル・タグを指定した適用)。デフォルトでは( 'のhref'、)で
それぞれ抽出されたURLの標準化(w3lib.url.canonicalize_urlを使用) -カノニカル()#カノニカル(ブール値)。デフォルトはTrueです。 
UNIQUE()#UNIQUE(ブール値) -の繰り返しのアプリケーションのフィルタリングを抽出したリンクに対処するかどうか。
process_value()#1 process_value(呼び出し可能) - 
属性とタグ値から抽出された各値を受信してスキャンは、修飾および機能の新しい値を返し、または完全に戻りなしのリンクを無視することができます。いいえ、process_valueデフォルトの場合。ラムダX:X

  

おすすめ

転載: www.cnblogs.com/superSmall/p/12057599.html