重複データのフィルタリングscrapyで

NOの場合、重複データのデータ登山を確保するために、彼らは、重複除外項目パイプラインを実現することができます

 

重量のタイトルのための初期化が設定されているコンストラクタメソッドを、増やします

 

process_item方法では、まず、判断フィールドであることを項目の名前を削除し、コレクションが既に存在するかどうかをチェックし、重複データが既にDropItem投げ存在していることがされている場合、この項目を放棄します、この項目はそうなりますコレクションにフィールドを保存して、アイテムを返します。

おすすめ

転載: www.cnblogs.com/tulintao/p/11700374.html