ScrapySplash、ScrapyRedis:のpython3クローラは戦闘-11クローラフレームを搭載し

ScrapySplashインストール

ScrapySplashは、その設置について教えするには、このセクションの支援でScrapyのJavaScriptのレンダリングのためのツールです。
ScrapySplashのインストールは、2つの部分に分かれて、1はドッカーによってスプラッシュサービス、インストールをインストールすることで、スプラッシュは、インストール後にサービスを開始します、我々はそのJavaScriptのインターフェイスを介してページを読み込む達成することができます。もう一つは、インストール後にScrapyスプラッシュでサービスを利用することができ、ScrapySplash Pythonライブラリをインストールすることです。

1.リンク

2.スプラッシュをインストールします。

それはあなたがドッカーを正しくインストールされていることを確認してくださいする前にインストールは、ドッカーでインストールされ、ScrapySplashスプラッシュページのレンダリングのためのHTTP APIを使用しますので、私たちは、レンダリングサービスを提供するために、スプラッシュをインストールする必要があります。
インストールコマンドを次のように:

docker run -p 8050:8050 scrapinghub/splash

インストールが完了した後の出力は、結果のようになります。

2017-07-03 08:53:28+0000 [-] Log opened.
2017-07-03 08:53:28.447291 [-] Splash version: 3.0
2017-07-03 08:53:28.452698 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2
2017-07-03 08:53:28.453120 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 20160609]
2017-07-03 08:53:28.453676 [-] Open files limit: 1048576
2017-07-03 08:53:28.454258 [-] Can't bump open files limit
2017-07-03 08:53:28.571306 [-] Xvfb is started: ['Xvfb', ':1599197258', '-screen', '0', '1024x768x24', '-nolisten', 'tcp']
QStandardPaths: XDG_RUNTIME_DIR not set, defaulting to '/tmp/runtime-root'
2017-07-03 08:53:29.041973 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/proxy-profiles
2017-07-03 08:53:29.315445 [-] verbosity=1
2017-07-03 08:53:29.315629 [-] slots=50
2017-07-03 08:53:29.315712 [-] argument_cache_max_entries=500
2017-07-03 08:53:29.316564 [-] Web UI: enabled, Lua: enabled (sandbox: enabled)
2017-07-03 08:53:29.317614 [-] Site starting on 8050
2017-07-03 08:53:29.317801 [-] Starting factory <twisted.web.server.Site object at 0x7ffaa4a98cf8>
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

これは、スプラッシュ8050が既にポート上で実行されていることを証明します。
その後、我々は開きます。HTTP:// localhostを:8050スプラッシュは、図1-81に示されているホームページを、見ることができます:

ScrapySplash、ScrapyRedis:のpython3クローラは戦闘-11クローラフレームを搭載し

図1-81 [実行]ページ
にも、リモートサーバーに直接装着するコーススプラッシュのは、我々は次のようにサーバー上でコマンドを実行できる状態スプラッシュを保護するために実行します。

docker run -d -p 8050:8050 scrapinghub/splash

ここでは、接続がスプラッシュ終了サービスを実行しているリモートサーバーを中断しないように、状態の動作を保護するためにドッカーコンテナを表し1つの以上-dパラメータ。

3. ScrapySplashインストール

スプラッシュのインストールが正常に完了した後、我々は次のようにコマンドをインストールし、Pythonライブラリをインストールするには、再びそれを見に行くされています。

pip3 install scrapy-splash

コマンドが正常にこのライブラリをインストールされる実行が終了した後、後、私たちはその詳細な使用方法を紹介します。

ScrapyRedisインストール

ScrapyRedisがScrapyは、我々は簡単にScrapy分散クローラを構築するために実装することが可能な拡張モジュールを、分散型で、このセクションでは、ScrapyRedisのインストールについて教えします。

1.リンク

2.ピップのインストール

次のように推奨されるインストール順序PIPです。

pip3 install scrapy-redis

3.インストールをテスト

インストールが完了したら、あなたはPythonのコマンドラインでテストすることができます。

$ python3
>>> import scrapy_redis
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

エラーが報告されていない場合、それはライブラリがインストールされていることを証明しています。

おすすめ

転載: blog.51cto.com/14445003/2425406