流量計算とは何ですか?

計算I.背景ストリーミング

日常生活では、我々は通常入れたデータはテーブルに格納され、その後、処理され、ここで分析された適時の問題を伴います。我々は、リアルタイム要件に、データのレベルのユニットに、月、年にそれほど多くのデータを扱う場合は高くありません。しかし、日、時間、我々が扱っている場合は、さえ分のデータ単位、データ要件の後、適時比較的高いです。我々はまだデータベースに保存されている従来のデータ処理、統一されたデータの収集を、使用している場合には、第2のシナリオでは、分析を実行した後、それが適時の要件を満たしていない場合があります。

第二に、計算フローおよびバッチ・コンピューティング

計算モードは、大規模なデータ容量計算(バッチ・コンピューティング)、算出した流れ(ストリーム・コンピューティング)、インタラクティブコンピュー(インタラクティブコンピューティング)、図算出(グラフティング)などに分けられます。前記フローの計算は、大規模なデータの異なるシナリオについて、それぞれ、計算されたデータのバッチは、2つの主要な大きな演算モードであるています。
データストリーム(又はデータストリーム)は、経時的なデータの値が小さくなる無限の動的データ集合の時系列の分布および数を指し、したがって応答は秒単位で与えられ、リアルタイムで計算されなければなりません。フロー計算は、定義により、データストリームは、処理され、リアルタイムで計算します。大量のデータを計算することは収集され、データベースに格納され、バッチ処理データのデータが算出されます。主に以下の点で:
1、異なるデータの適時性:流量、低レイテンシ、非リアルタイム計算バルク、高レイテンシのリアルタイム計算。
図2に示すように、前記異なるデータ:データストリームは、一般に、何の境界を動的に計算されず、バッチデータは、典型的には、静的データです。
図3に示すように、異なるシナリオ:リアルタイムのシナリオでストリームコンピューティングアプリケーション、例えばリアルタイムの推奨、一般的なバッチバッチ・コンピューティングの動作の監視...、リアルタイムで要求の少ないアプリケーションシナリオのオフライン計算として適時比較的高い需要のシナリオ次の、データ分析、オフラインのレポート。
1回の操作で図4に示すように、異なる動作モード、バッチ計算タスク・フロー・コンピューティングタスクを継続します。

第三に、フロー・コンピューティングフレームワーク、プラットフォームおよび関連製品

ファーストクラス、ビジネスクラスのフロー・コンピューティング・プラットフォーム(IBMのInfoSphereストリーム、IBM StreamBase等);
第二のタイプ、オープンフレーム計算原点(ツイッター嵐、S4、等);
第三のカテゴリーは、会社は、トラフィック自体のストリーミングをサポートするために開発しましたコンピューティングフレームワーク。
ストロム:第一世代のTwitterストリーム処理システムの開発。
ヘロン:開発Twitterのストリーム処理システムの第二世代。
スパークストリーミング:スパークコアAPIを拡張したもので、高いスループットを達成することができ、ストリーミングデータのリアルタイム処理は、フォールトトレランスのメカニズムを含んでいます。
FLINK:データとバッチデータをストリーミングするための分散処理エンジンです。
Apacheのカフカ:Scalaで書かれました。プロジェクトの目標は、統一されたリアルタイムデータ処理、高スループット、低レイテンシのプラットフォームを提供することです。

第四に、ストリーミングメインアプリケーションシナリオが計算されます

イベントや継続的の流れ:ストリーミングは、2つの異なるシナリオのために使用することができます。
1、イベントストリーム
イベントストリームは、大量のデータを生成し続けることができ、そのようなデータは最初に、伝統的な銀行業務と証券取引分野の分野の出現に登場するだけでなく、インターネットを監視するために、無線通信ネットワークは、ほぼリアルタイムでデータストリームを更新する必要がありますこのような傾向の分析、予測、モニタリングなどの複雑な分析。簡単に言えば、クエリで使用されているイベントの流れは静的文が固定されたまま、データは方法を変更します。
2、連続コンピューティング
など大規模サイトのストリーミングデータ用として:サイトのアクセスPV / UV、ユーザーがどのようなコンテンツを検索どのようなコンテンツへのアクセスを持って、リアルタイムデータを計算し、動的に分析され、リアルタイムでのデータへのユーザーアクセスを更新し、リアルタイムを示すサイトトラフィックの変化は、日々のトラフィックとユーザーの分布の各時間を分析し、
金融セクターが重要ミリ秒の待ち時間要件であるような。いくつかのシーンは、ユーザーのリアルタイムお薦めや他の商品によって生成されるログファイルに応じてデータのリアルタイム処理はまた、ユーザーの行動をリアルタイムで分析として、嵐を適用することができます必要があります。

第五に、バリューストリームの計算

大規模なデータ処理を通して、私たちは、データの値を取得しますが、データはそれの一定値ですか?もちろん、まもなくイベントの後、いくつかのデータは、より高い価値を持つことになりませんし、時間をかけて、この値が急激に減少します。ストリーミングの主な利点は、通常、秒ミリ秒、それはより速く洞察を提供することができるということです。
算出した流量値は、より短時間でサービスデータの前に採掘作業の値であり、この待ち時間の競争上の優位性を変換します。例えば、フロー計算推奨エンジンの使用は、ユーザの嗜好をより短時間で推奨モデルの挙動に反映させることができる、推奨モデルは、より正確かつタイムリーに提供するために、ユーザの行動を捕捉するための待ち時間優先度を下げることができますお勧め。
従来のバッチ計算は前一定量に蓄積されるバッチ処理データに蓄積されたデータを必要とするので、これを行うことができ、計算を流れ、効率的に低減すること、及びデータフローピックプロセスを達成するように計算処理遅延。

おすすめ

転載: blog.51cto.com/13945147/2436907