爬虫類の利用シェア:FY-2気象衛星写真

爬虫類の概要

早ければ2016年のように、私は私の使用アリ雲ECSは、クローラの長期的な性質で実行されている、コンテンツが年度に2枚の気象衛星写真を収集し、最終的に結果を確認するために戻ってきて時間を持って、今のまま、簡単な統計があるがのように(数字)を、次のとおりです。

トータル枚数:45869個のファイル

最古の文書:201609131345.jpg

最新のファイル:201910091415.jpg

 

爬虫類実行中のプロセス

図1に示すように、データ・ソース:

当時の事故は明確なルールがあることを意味するデータの長期的な効果的なソース、URLパラメータ、時刻形式、でした。爬虫類のために実行します

2、爬虫類は実行します。

この事実の条件を操作する、2つのクローラあります; 2ノンストップ運転をダウンロードする1時間。

それは気象データですので、私が書いたので、もちろん、私たちは定期的にクロールを持っている、Windowsサービスは、バックグラウンドで継続的に実行されます。他の割り込みの数倍につながったサーバーの問題のため、中央が、Jiabu朱長い時間が、それはデータの成功した連続コレクションがたくさんあるので。

シャットダウンされていない要件は、プログラムが継続的に実行する必要がある、があります。私の最終的な解決策を使用することですクラウドサーバECSの展開操作を。ロングブーツを実行するための個人的なPCの使用は避けてください。

図3に示すように、処理ストレージ。

まず第一に、それは私がアリクラウドオブジェクトストレージOSSを選んだので、非常にタブーの事はすべての結果をローカルフォルダに集中しているということである、長時間実行望んでいる、とあれば、このプログラム、私は私が最終的にので、シャットダウンする必要があるため、サーバーECSクラウド + オブジェクトストアOSS、およびOSS ECSは、同じ領域を使用するため、伝送ネットワークはすぐに介して取得します。私は一時的なローカルストレージを行うので、もはや、ダンプOSS後、私は安全に数年前からこれを実行して、「メンテナンスフリー」を開始することができる唯一の方法はローカルのハードディスクを占有しません。

4、爬虫類はシャットダウン

爬虫類は私の意図をされていないシャットダウン、私の休暇中に失敗したデータソースを知るために、ログを見ることです。したがって、この爬虫類は終わりが来ます。私は、新しい効果的なデータソースを見つけるために見ることができますが、私は古いデータを十分に活用していないので、新しいデータを探しに行くために最初にされているが。

 

爬虫類の仕事は、最終的な結果のダウンロードを完了しています

私は、私はECSとOSS地域を進め、計画ので、アリの雲は、それがネットワーク内の私のECSに直接ダウンロードすることができ、OSSクライアントツールをお勧めします、速度が非常に高速である60メガバイト/秒を超えるツールが表示されました。図スクリーンショットツールの一部:

 

(実際には、悪い:ファイルの直接ダウンロード6Gサイズ、忙しい5セントの価格)費用OSSパブリックネットワークのダウンロードトラフィックを避けるために、私は、ネットワーク内のデータの後に帯域幅をOSSをダウンロードし、ECSは、私のPCのダウンロードに戻りますローカル。ローカルビュー:


オリジナル住所:  https://www.opengps.cn/Blog/View.aspx?id=590  更新編集記事とリンクしては勝ちます。ソースステーション元の記事へようこそ注意!

公開された27元の記事 ウォンの賞賛6 ビュー120 000 +

おすすめ

転載: blog.csdn.net/opengps/article/details/104091799