Scrapy使用(A)


Scrapyデータをクロールするためのウェブサイトがある、等のプログラムデータマイニング、情報処理や履歴データの記憶、の直列に適用することができる構造化データ記述されたアプリケーション・フレームワークを抽出し、それが広い検出するScrapy使用データマイニングの範囲と自動化のために使用することができますネットワーク通信処理を使用してテスト、Scrapyツイスト非同期ネットワークライブラリ。


フローチャート


エンジンにオブジェクトを要求するスケジューラは、エンジンが(ダウンロードミドルウェアの中央)ダウンローダ、ダウンローダ(に対する応答を取得するための要求、エンジンのダウンロードに応答して、ダウンロードを発生するリクエストオブジェクトの原因であります爬虫類中間中間)爬虫類、爬虫類は、エンジンに、パイプラインにエンジンレスポンスデータを抽出し、その後、応答を抽出します。


Scrapy主要コンポーネント

Scrapy基本的なコマンドは

startprojectのプロジェクト名#が現在のディレクトリにプロジェクトファイルを作成scrapy
プロジェクトファイルにCDプロジェクト名#
スパイダー名のリンク#genspider scrapyクローラアプリケーションの作成
scrapy
scrapyリスト#ショーの爬虫類リスト
scrapyクロール爬虫類名#動作爬虫類
scrapyを-爬虫類と一緒に使用する場合実行できるようになりましたログ情報を表示しません-nolog#
scrapy genspider -tクロールスパイダー名#リンク作成c'rawlクローラ
scrapy --help#のヘルプドキュメントを取得することができる爬虫類の

デバッグ情報

 

ファイルの説明

文件说明
Spider:
自定义spdider类,继承scrapy.spider,这个主要是用来接收引擎发过来的response我进行数据提取。parse()里面可以写一些信息提取规则,详细见图。

Iter:
iter用来做数据格式化的,类型为字典,详情请看图。

setting:
setting设置爬虫的请求头,cookie,数据库信息等内容。

Pipeline:
pipeline主要进行的是数据的持久化,比如:一些数据要保存到数据库,文件或者别的地方都可以在pipeline下面来进行设置保存。
PS:
1.其中它的process_item()方法名是不能更改为别的名称。
2.如果要使用pipeline需要到setting配置文件中设置,代码如下:
3.pipeline中权重越小优先级越高
4.pipeline可以设置多个class来进行数据的保存

pipeline setting设置
ITEM_PIPELINE={'myspider.MyspiderPipeline':100} #{pipeline的位置:权重}


yiled object 与 yiled Request
yiled object:
yiled对象必须返回 Request,Baseitem,dict,None

yiled Request:
能构建一个request,同时指定提取数据的callback函数,meta
ps:
参数:meta:传递信息给下一个函数
日志的设置

Crawl spider



Crawl spider 总结
)

 

 

おすすめ

転載: www.cnblogs.com/pythonlxf/p/11257238.html
おすすめ