爬虫類の概要
早ければ2016年のように、私は私の使用アリ雲ECSは、クローラの長期的な性質で実行されている、コンテンツが年度に2枚の気象衛星写真を収集し、最終的に結果を確認するために戻ってきて時間を持って、今のまま、簡単な統計があるがのように(数字)を、次のとおりです。
トータル枚数:45869個のファイル
最古の文書:201609131345.jpg
最新のファイル:201910091415.jpg
爬虫類実行中のプロセス
図1に示すように、データ・ソース:
当時の事故は明確なルールがあることを意味するデータの長期的な効果的なソース、URLパラメータ、時刻形式、でした。爬虫類のために実行します
2、爬虫類は実行します。
この事実の条件を操作する、2つのクローラあります; 2ノンストップ運転をダウンロードする1時間。
それは気象データですので、私が書いたので、もちろん、私たちは定期的にクロールを持っている、Windowsサービスは、バックグラウンドで継続的に実行されます。他の割り込みの数倍につながったサーバーの問題のため、中央が、Jiabu朱長い時間が、それはデータの成功した連続コレクションがたくさんあるので。
シャットダウンされていない要件は、プログラムが継続的に実行する必要がある、があります。私の最終的な解決策を使用することですクラウドサーバECSの展開操作を。ロングブーツを実行するための個人的なPCの使用は避けてください。
図3に示すように、処理ストレージ。
まず第一に、それは私がアリクラウドオブジェクトストレージOSSを選んだので、非常にタブーの事はすべての結果をローカルフォルダに集中しているということである、長時間実行望んでいる、とあれば、このプログラム、私は私が最終的にので、シャットダウンする必要があるため、サーバーECSクラウド + オブジェクトストアOSS、およびOSS ECSは、同じ領域を使用するため、伝送ネットワークはすぐに介して取得します。私は一時的なローカルストレージを行うので、もはや、ダンプOSS後、私は安全に数年前からこれを実行して、「メンテナンスフリー」を開始することができる唯一の方法はローカルのハードディスクを占有しません。
4、爬虫類はシャットダウン
爬虫類は私の意図をされていないシャットダウン、私の休暇中に失敗したデータソースを知るために、ログを見ることです。したがって、この爬虫類は終わりが来ます。私は、新しい効果的なデータソースを見つけるために見ることができますが、私は古いデータを十分に活用していないので、新しいデータを探しに行くために最初にされているが。
爬虫類の仕事は、最終的な結果のダウンロードを完了しています
私は、私はECSとOSS地域を進め、計画ので、アリの雲は、それがネットワーク内の私のECSに直接ダウンロードすることができ、OSSクライアントツールをお勧めします、速度が非常に高速である60メガバイト/秒を超えるツールが表示されました。図スクリーンショットツールの一部:
(実際には、悪い:ファイルの直接ダウンロード6Gサイズ、忙しい5セントの価格)費用OSSパブリックネットワークのダウンロードトラフィックを避けるために、私は、ネットワーク内のデータの後に帯域幅をOSSをダウンロードし、ECSは、私のPCのダウンロードに戻りますローカル。ローカルビュー:
オリジナル住所: https://www.opengps.cn/Blog/View.aspx?id=590 更新編集記事とリンクしては勝ちます。ソースステーション元の記事へようこそ注意!