カッパアーキテクチャ：データを処理する別の方法

https://www.blue-granite.com/blog/a-different-way-to-process-data-kappa-architecture

カッパアーキテクチャは、レコードのプライマリソースとして不変のデータ・ストリームを提案しています。複数のサービスで複製コードにラムダとは異なり、カッパ緩和する必要があります。私には最後のポスト、私はで利用可能なラムダアーキテクチャツーリングオプション導入のMicrosoftのAzure、サンプルリファレンス・アーキテクチャ、およびいくつかの制限を。カッパアーキテクチャ：この記事では、私が代わりのビッグデータワークロードパターンを説明します。

以下は、私が何カッパの概要をあげる、アズールにラムダ対カッパを実装する利点とトレードオフのいくつかを議論し、サンプルリファレンスアーキテクチャを見直しています。エンタープライズ規模のビッグデータ・アーキテクチャを実装するときに最後に、私はいくつかの追加の考慮を提供します。

カッパアーキテクチャ：不変、永続ログイン

ジェイKreps、の最高経営責任者（CEO）に起因するカッパアーキテクチャ、コンフルエント社との共同制作者のApacheカフカは、むしろ、データベースやファイルのポイント・イン・タイムの表現よりも、レコードのプライマリソースとして不変のデータ・ストリームを提案しています。言い換えれば、すべての組織のデータを含むデータストリームは、無期限に存続できるかどうか（またはロングユースケースが必要な場合がありますようとするために）必要に応じて、その後、コードに変更し、過去のイベントのために再生することができます。これは、ユニットテストとラムダがサポートされていないという計算をストリーミングの改正が可能になります。すべてのデータが永続化ストリームにイベントとして書かれているようカッパアーキテクチャはまた、バッチベースの侵入プロセスが不要になります。カッパアーキテクチャは、分散システムアーキテクチャへの新しいアプローチである、と私は個人的にその背後にある設計哲学をお楽しみください。

Apacheのカフカ

カフカは、意図的に不定の期間の生存時間（TTL）をサポートカッパ、ために設計されたストリーミングプラットフォームです。クラスタのログ圧縮を利用して、カフカのイベントストリームを使用すると、ストレージを追加できる限り大きく成長することができます。（ペタバイトサイズがある米国議会図書館を想像カフカクラスタは今日は本番で）。これセットは一意に離れて他のストリーミングおよびメッセージングプラットフォームからカフカ、それが記録システムとしてのデータベースを置き換えることができます。ここではカフカの機能には、いくつかの魅力的な書き込みアップは以下のとおりです。

ラムダ・アーキテクチャを問うジェイKrepsにより、
カフカ、Samza、および分散データのUNIX哲学マーティンKleppmannすることにより、
それはオーケーストアへのデータではApacheカフカジェイKrepsすることにより、
ニューヨーク・タイムズ紙ではApacheカフカで公開 Boerge Svingenにより、

カッパ対ラムダ

のは、カッパアーキテクチャで行きましょう。我々は、権利のために何を待っていますか？まあ、空きランチはありません。カッパの申し出新しいラムダと比べて能力が、最先端の技術を実装するときに、あなたが価格を支払う行うには - 具体的には、今日のように、あなたはこの仕事をするために、独自のインフラストラクチャの一部にロールする必要があるとしています。

ノーマネージド・サービスオプション

あなたは、ネイティブのクラウドサービスを使用してカッパアーキテクチャをサポートすることはできません。アズールを含むクラウド・プロバイダーは、心の中でカッパとストリーミングサービスを設計していませんでした。24時間以上のTTL大きいとストリームを実行しているコストは、より高価であり、一般的に、最大TTLは7日の周りに出トップス。あなたはカッパを実行したい場合は、あなたのアーキテクチャに多くの管理を追加サービスとしてのサービス（PaaSの）またはインフラストラクチャ（IaaSの）、などのプラットフォームを実行する必要があるとしています。だから、アズールのようにこの外観は何でしょうか？

HDInsightとカッパのためのリファレンスアーキテクチャ

HDInsight.pngとカッパアーキテクチャ

このリファレンスアーキテクチャでは、我々はカフカにすべての組織データをストリーミングするために選択されています。アプリケーションは、入力中のバッチ処理の必要性を排除し、データベース・ログ（またはデータストア当量）から直接書き込み読み取りおよび書き込み直接カフカに開発され、既存のイベント・ソースのために、リスナーがストリームに使用されることができます。実際には、既存のバッチデータ用のワンタイム歴史的負荷が最初にデータ湖を移入するために必要です。

Apacheのスパークストリーム摂取時形質転換し、照会のための唯一の処理エンジンです。データ湖ストアに対して更なる処理は、機械学習やデータの履歴表示を必要とする他の分析のために行うことができます。要件が変更され、私たちは、コードとデータの湖（V2、V3など）内の既存のタイムスライスの新しいバージョンへの書き込み、「リプレイ」の流れを、変更することができます。私たちの湖は、もはやレコードの不変データストアとして機能しているので、我々は単純に再生することはできませんし、必要に応じて、当社のタイムスライスを再構築します。

代わりにカッパで、我々は必要に応じて、当社のデータ湖を再増殖することにより、潜在的な沼を排除することができます。また、両方のストリーミングやバッチ処理で再生コードへのラムダの必要性をなくす - すべての入力イベントと変換はストリーム処理中にのみ起こります。

その他の考慮事項

スキーマとガバナンス

あなたはまだ関係なく、あなたが選択したアーキテクチャのソリッドデータガバナンスプログラムが必要です。ラムダのために、のようなサービスAzureのデータカタログ缶自動検出し、文書ファイルやデータベースシステム。カフカはそう（で利用可能な合流のエンタープライズ実装エンタープライズサイズの環境強く推論にスケーリングをサポートし、このツールには整列しないAzureのマーケットプレイス）。

合流企業が提供する重要な特徴は、スキーマレジストリです。このトピックは、自己記述型であることを可能にし、下流アプリケーションが維持されるとの契約を確実に、特定のトピックに公開するアプリケーションの互換性警告を提供します。合流企業を実行すると、お使いのアーキテクチャや追加のライセンス・コストにサードパーティのサポートの関係にもたらしますが、成功した企業規模の展開に非常に貴重です。