ビッグデータ技術ソリューションのための共通プラットフォーム

ビジネスのための最終的な技術サービスは、必ずしも高度追求するために、すべての企業は、彼らの実際の状況に応じてルーティングするために、独自の技術を選択する必要がありません。

それは必ずしも普遍的なませんが、ある程度言えば、このアーキテクチャは、ほとんどの企業の例アーキテクチャを適応させる、すべての後、ほとんどの企業は、その部分のデータに、自己啓発、およびビジネス完全にすることができないではない以上BATよりもあり開始右少し良く、オープンソースの可能な組み合わせ。

ビッグデータの階層区分は、私はビッグデータアプリケーションの企画を行って、だけでなく、非常に絡まっている前に、アプリケーションの分類は、垂直および水平断面であるため、標準的なプラットフォームアーキテクチャを欠いて、後でまだ明確で分かりやすい、体現「を使用」の原則を感じますあなたはビッグデータプラットフォームが分かれている建物、導くことができる「5水平方向と垂直方向のものを。」

以下に示す具体的な例としては、この絵は、より古典的であるオンライン現在の特定のマッピングを行うことができますビッグデータアーキテクチャ図の多くの妥協の結果です。

fIRnae6

どの5水平それぞれ、塩基性または底5は、従来のデータ・ウェアハウスと、分割によるデータの流れが非常に類似しており、データのクラスシステム、概念的通信、データ収集層、データ処理層、データ層の分析、データアクセス層とアプリケーション層。

同時に、従来のデータウェアハウスとビッグデータ・プラットフォーム・アーキテクチャが異なるがあり、それは同じレベルで、さまざまなシーンに対応するために、困難である、特性の繁栄を反映し、より多くの技術コンポーネントを使用します。

データ収集レイヤは:リアルタイムの収集、インターネットクローラパースなどもありますが、両方の伝統的なETLのオフラインコレクションを含んでいます。データ処理レイヤ:データ処理が異なるシーンを必要と、それは次のようにストリーミングと、HADOOP、MPPに分けることができます。データ分析層:主に、データマイニング、機械学習、深い学習として、解析エンジンを含みます。データアクセス層:読み取りおよび書き込みは、分離を達成することであり、コンピューティングパワーを照会する機能は、リアルタイムクエリ、多次元クエリ、問い合わせ従来のアプリケーション・シナリオなどのアプリケーションを、放出する傾向があります。データアプリケーション層は:など事業者向けなどのアプリケーション、エンタープライズ異なる種類の異なる部門の特徴によれば、内部の精密マーケティング、顧客サービスの苦情、分析、基地局があり、外国人旅客は、ロケーションベース、アプリケーションベースの広告のラベルを持っている、というように。データ管理:これは主に、データの管理・運用・保守のために、縦方向である、それは一元管理を実現するために、複数の層にまたがります。図1に示すように、基礎となるデータの獲得層、。

HADOOPを使用してオフラインバッチコレクションが、これは主流の流線取得エンジンとなっており、このプラットフォームに基づいて、我々はデータ収集アプリケーションやツールを導入する必要があります。

BATは、独自の製品の研究開発、一般的なビジネスされているような、あなたは今、このよう華為BDIなどこれらの多くの選択肢を、商用バージョンを使用し、その上ですることができ、多くの企業が技術力を持っているが、それはアプリケーションシナリオが比較的弱い、細かい作業であることを理解するために開始する傾向があります貧しい、BATのギャップで、統計的な機能の欠如などの要件を満たすことは困難で出て作られた製品が得られことは控えめなことが、これらの製品を購入するために大規模な、伝統的な企業です。

1つの提案は、高度な技術や指標に加えて、製品を購入するときに、ライン上のシャシ侯のバージョンがあり、より多くの展開を成功するかどうか、尋ねなければならないことであり、十分な顧客は、彼らが上でテストを行うことができればあればより良い、そうでない場合は、あなたがマウスであるああ、ピットの多くを踏ん。

やると二つの製品はもちろん、小規模なインターネット企業がツールを収集する自体が有用なものにすることができ、物事の領域であることを確認してください、それは抽象的に困難であり、実際の製品を作成するには、BATは、実際には巨大な自己啓発を形成します利点。

今リアルタイム取得とは、ビッグデータのための標準的なプラットフォームとなっている、それが主流の水路+ KAFKAが、その後、ストリーム処理+メモリデータベースの権利と合わせ、この技術は確かにトリッキーが、オープンソースのスタッフの素敵なこのタイプのが、問題があることが多い場合はすると推定されています解像度のサイクルは、多くの場合、長いです。

リアルタイム取得を達成するために、Oracleデータベースのテーブルのために、水路の使用に加えて、また、リアルタイムのログ収集を達成するためにOGG / DSGの技術を使用することができ、フルスケールを汲み上げ、従来のデータウェアハウスの負荷の問題を解決することができます。

インターネットは、主に新しいデータに頼っているため、現在の爬虫類は、多くの企業の標準のコレクションとなってきている、あなたは、インターネットのウェブページの解析を通じて多くの情報を得ることができ、どのような世論の分析、エンタープライズクラスを確立する必要があり、すべてのビジネスをお勧めしているもののランキングサイトそれはあなたのビッグデータプラットフォームの計画にない場合爬虫類センターでは、データは、何も言うことを取るません得ることができる、と考えることができます。

だけでなく、必要爬虫類ので、また、ウェブサイトやアプリケーションの知識を確立するために、Webベースの中国語の単語のテキスト、逆の順序とセットダウンテキストマイニング、大きな挑戦の必要性を必要とするエンタープライズクラスの爬虫類センターを構築することの難しさは、かなり大きいです現在、それはなどのSolr、ルーセント、Nutchの、ES、としてではなく、より有効に活用する、オープンソースコンポーネントをたくさん持っている、道路前方の長い来るであろう。

ビッグデータ集録プラットフォームを構築するお奨めの用語は、少なくとも次の3つの要件に到達するために、顧客の観点から、非常に簡単です:

多様なデータ収集機能:(水路を使って、メッセージキュー、OGGおよび他の技術)などのデータ、ドキュメント、メッセージ、各種のリアルタイム増分データの収集および分散バッチデータ収集およびその他の機能(SQOOP、FTP VOER HDFS)のサポート、従来のETLよりもパフォーマンスに基づいて基本であるため、上で提起されてきました。ビジュアル迅速なコンフィギュレーション機能:各データ・インタフェースは、人件費を削減するために、非常に短い時間のかかるを設定するには、グラフィカルなインターフェイスの開発と保守を提供しサポートドラッグ&グラフィカル開発を落とし、コーディングなしの、収集の難しさを減らします。統一された管理および制御機能は:統一されたコレクション・タスクのスケジューリングを達成するために、Hadoopのは、リレーショナルデータベースのストアドプロシージャ、シェルスクリプト、およびスケジューリングの様々な(時間/インタフェース通知のサポート(などのMapReduce、スパーク、HIVEなど)、複数のテクノロジ・コンポーネントをサポートすることができます/マニュアル)。層を加工2、データ、ミックスおよびマッチと呼ばれる言葉は、それは確かに、場合があります。

HIVEのHadoopは、従来のデータウェアハウスへの分散の代替です。データは、従来の洗浄にETLを使用し、濾過し、他のシナリオの直接変換は、データのより多くの量、より高いその価格のためにまとめられています。しかし、これまでのシーンデータ解析のサポートが限定されていることを確認するには、大量のシンプルなオフライン解析と計算は、それが遅い複雑な相互相関操作に対応し、最も得意です。

HIVEと比較して、企業のお客様など、ある程度に話す、広いテーブルの統合ビュー非効率的な、それは様々なデータの統合を必要とするが、ゆっくりとよく作ることは不可能ではないが、まだバランスに注意を払う必要があるため。

また、かろうじてX000のクラスタのサイズ、および多くの企業が、より多くのこの数よりもアリのような企業に加えて、(例えばODPSなど)、独自のR&D能力を持っているだけでなく、Hadoopクラスタに基づいて事業を分割するかどうかをすべきデータの電流量にHadoopの道路?そのような浙江モバイルとしては、固定回線、シフトネットワーク、革新及び他のHadoopクラスタを分割しました。

Hadoopのは、反復SPARK機械学習のために非常に適しているが、大規模データの相関分析に適用することができ、ある程度も検証するために実際に必要な、MPPを置き換えることができます。

MPPは、それが従来のデータウェアハウスへの最善の代替のための分散型アーキテクチャである、である必要があり、すべての後に、それは実際にHIVE分析で行われ、変換、データウェアハウスの統合後、SQLを完全にサポートを提供し、リレーショナルデータベースの種類となり十分な性能以上にわたって使用してモデル化し、その価格は少し良く、従来のDB2よりも、そのような実用的介するなどで、Gbase30-40ステーションクラスタは、IBM 780でトップ組以上のことができます。

MPPは今、多くの製品は、それが判断を行うことは困難であるが、いくつかの実用的な結果でそれを言うことができる、GBASEの良い、多くのシステムは、その上で会社を経営されている、主に国内、技術サービスのサポートは比較的信頼性があり、ASTERは以来、見られることを残りますライブラリといくつかのアルゴリズムは、Greenplumは、にVerticaが使用されていない、と言うのは難しい、その利点のいくつかです。

ビッグデータプラットフォームトロイカ、最終的には、ストリーム処理。

多くの企業にとって、アプリケーションシナリオの多数の存在として、核兵器がストリーム処理は非常になったシナリオを、倉庫リアルタイムデータの近くなので、リアルタイムな想像を絶するIOEの時代のように、工事を実施してください、それを必要とすることは明らかですシンプルは、前にリアルタイム統計指標は、こうした現在のリアルタイムの不正防止システムなど、より優れたアプリケーション配備システム上の日は非常に痛みを伴うことです。

商用バージョンが、IBM STREAM推奨されるのみであっSTORMおよびIBMストリームを試みるが、その処理能力は、アプリケーションから使用することができ、その結果、嵐が少しでも、それはSTORMは基本的に更新されていないと言われていない超えて、実際のデータ量を、及びIBMなどの観点、この商用版は、リアルタイムシナリオのすべての種類をサポートするのに十分より良い選択です。

ストリーム処理クラスタは、リアルタイムとほぼリアルタイムのデータ処理のための処理技術のメモリデータベース、キャリアの上でベースのリアルタイムトラフィックストリームIBMストリーム処理クラスタをストリーミング:

VNVfUvz

3、データ解析層、回右。

言語についてのトーク、オープンソースのデータマイニング分野の友人に基づくRとPythonのペアが言っている場合、Pythonのように単語を直接サポートなど、プロジェクトに関心を少し感じて、私は本当に言うことができない、選択されているどのようなRの描画能力非常に強力。しかし、彼らはすべてのサンプル統計、したがって限定的にサポート大規模データを持っていました。

私はより多くの鉱業分散環境を心配して、SPARKはオプションである、すべてのScalaのSPARKを迅速に支援するために、多くのネイティブの機能のために書かれた後、それは、SPARK +スカラ座を使用することをお勧めします。

また、アルゴリズムの多くは、並列アーキテクチャに基づくべきで構築されたTDのMPPデータベースASTERは、最適化の多くを行う、また、本当に速いスピード、性交ラップの前に数回行われ、オプションのようですが、唯一のデータの一握りだけでなく、外国人とそれはサポートしています。

また、従来のデータマイニングツール不本意人々の後、SPSSはIBM SPSS分析サーバー、大規模なデータのHadoopの拡張サポートが今、ビジネスの人々は、フィードバックが良いです使用しています。

いずれにせよ、このツールは、最終的に制御したり、エンジニアをモデル化する能力に依存している、ただのツールです。

図4は、戦国時代にも、データ層を開きます。

HIVEとしてクエリ出力に直接いくつかのエンジニアは、不合理なものの、しかしまた、計算およびクエリの技術的能力のための完全に異なる要件を反映しても、クエリのフィールド場合は、だけでなく、さまざまなシナリオに応じて、さまざまな技術を選択してください。

HBaseの便利な、列ベースのストレージ、クエリの速度をミリ秒、平均百億レコードはいくつかの高可用性と、生産上の単一のクエリの詳細については、データベースクエリの良い指標である、それが活用する能力であるチェックのためにアプリケーション・シナリオ。しかし、データの側面は唯一の支持体には、キーまたはキーの範囲で読み取り、そのため良いのrowKeyを設計するために読み取られます。

KV Redisのは、データベースの読み取りと書き込み速度より速いのHBaseよりも、ほとんどの時間は、HBaseのが行うことができ、Redisのは行うことができますが、Redisのは、メモリベースの主キーと値のメモリキャッシュで使用される、ある、データが失われる可能性があり、現在のリアルタイム問合せタグは、インターネット広告会社や彼らが使用する技術で働いていたことを、使用しますが、データが成長している場合は、そう、HBaseのが唯一の選択肢と推定しましたか?

また、ログは、インターネットベースのリアルタイムのオンラインお問い合わせIMPALAアプリケーションを提供しているスピードはできるが、また、バグの多くは、より大きな変換コストの導入が、SQLベースの関連分析SQLFireメモリをしようとGemFireのは、分散型マーケティングプラットフォームを実現さ。

麒麟が現在キラーツールはHadoopの/ SPARK多次元分析に基づいていると考えられている、アプリケーションのシナリオは非常に多くの希望が使用する機会を持っています。

図5に示すように、データアプリケーション層、繁栄。

すべてのビジネスは、変更が速すぎるので、以下は計画アプリケーションの外国現金かなり一般的なステージの現在の演算子は、独自のアプリケーションは、実際には、困難なアプリケーションの設計図、より不安定な上位ビッグデータアーキテクチャに従事する彼らの実際の計画に基づいている必要があります参照のために図:

yQVBbuN。

6、データ管理、道路前方のは、長い間来ます

アプリケーション管理とシステム管理のためのビッグデータ管理プラットフォームは、技術的なコンポーネントのすべての種類の透明性を達成することができ、アプリケーションの観点から、私たちは、このような11のビッグデータ技術コンポーネントを取るように適合させることができる視覚的な管理プラットフォームとしてDACPを確立して、ポイントを持っています前政権でのアクセス機能、データ破壊のデータの設計、開発およびライフサイクル管理のプラットフォームを通じて達成しながら、及び基準、品質ルールとプラットフォーム上で硬化セキュリティポリシー、制御の問題と事後監査、監査品質管理や安全管理のフルレンジ。

開発のソースのテイク制御は、データ管理の複雑さが大幅に削減されますので、このようなスケジュール管理、メタデータ管理、品質管理コースのような他のものは、言うまでもないです。

システム管理の観点から、同社は意志統一型クラウド管理プラットフォームへのビッグデータ・プラットフォーム、クラウド管理プラットフォームは、ワンクリックで展開、視覚化、操作および増分展開のためのメンテナンスツールのサポート、リソース管理・制御システム、マルチテナント指向コンピューティングとユーザーを向上させるが含まれてこうした野心的な目標を達成するための当然のビッグデータ管理操作や保守サポートのためのエンタープライズクラスのプラットフォームを提供するために、権利管理システムは、一日を持っています。

ビッグデータプラットフォームのいくつかの革新的な値をまとめたもの。

ビッグデータの時代、ほとんどの企業は、必然的に分散アーキテクチャに向けた意志スケーラブルかつ長期分間一緒に呼ばれ、開発を多様化し、技術はもはや存在し、世界を征服することができ、およびビジネスモデルをアウトソーシング伝統的な技術で、この影響は課題があり、集中しました素晴らしいです。

VNVfUvz。

ビッグデータとクラウドコンピューティング時代、非常に多くの多表面技術コンポーネント、新技術を採用する、機会と共存のリスク:

ビッグデータプラットフォームの商用版に関しては、企業は、開発が速すぎるので、追いつくことはできませんパートナーのサービスに直面したオープンソース版、企業はより多くの自治のための実際の要件の挑戦自体運用・保守や技術力に直面しているされています高いです。

関連読書:

ビッグデータ、クラウドベースのデータ交換や(上)プラットフォームのアーキテクチャ探索を共有します

中国は、ビッグデータ分析プラットフォームを必要とするもの

ビッグデータ、クラウドベースのデータ交換や共有プラットフォームアーキテクチャ探索(下)

 ます。http://bigdata.idcquan.com/dsjyy/151170.shtmlからの振替

おすすめ

転載: www.cnblogs.com/wangyu19900123/p/11864963.html