ビッグデータプラットフォームは、生成されたデータのための企業の要件を満たすように設計されています。
ビッグデータプラットフォーム:
これは、大量のデータストレージ、コンピューティングおよびインフラの連続的なリアルタイムストリーミングデータ・コンピューティング・シナリオベースのセットを指します。Hadoopの、スパーク、嵐、FLINKおよび水路/カフカと他のクラスタを含む一般的なシリーズ。
両方のオープンソースのプラットフォームを使用することができますHuawei社、スターリングとプライベートクラウド上に展開することができ、他の商用グレードのソリューションをも使用することができ、それはまた、パブリッククラウドに展開することができます。
ビッグデータプラットフォームの機能:
図1に示すように、大容量データ受信
ストレージを使用して、コンピュータクラスタのパワーを計算します。だけでなく、それがパフォーマンスに展開し、対応する増加に大量のデータストリームを処理する能力ました。
2、速いです
カラム(非伝統的な並列処理ベースのデータベース行に対して)データベーススキーマ大規模並列処理技術及び使用、大幅に性能を向上させる(典型的には約100〜1000)だけでなく、結合、それはまた、より低い及びより透明価格で実現することができます。
ビッグデータは、学習、業界を満たしている入門の過程では、体系的な学習パスの欠如は、システム計画を学ぶ、あなたが私の大きな学習データ交換スカートの参加を歓迎します:251 956 502、スカート文書は、大規模なデータの調査マニュアルソートの私の年を持っています、開発ツール、書籍とPDF文書は、あなたは自分自身をダウンロードすることができます。
従来のツールとの互換性3、
プラットフォームは、従来のツールとの互換性が確認されたことを確認してください。
4、利用Hadoop
Hadoopのビッグデータは、フィールド内の主要なプラットフォームとなっています。Hadoopが高い耐久性と軽量なデータ管理のための効果的なプラットフォームとして使用します。
5、データ科学者のためのサポート
科学者たちは、ビッグデータのため、高速で効率的な、使いやすく、広く展開されているプラットフォームの高い影響力と重要性が企業内のデータITは、ビジネスの人々と技術的な専門家の間の距離を狭めることができています。
図6は、データ解析機能を提供します
数秒で準備ができて大規模なデータプラットフォームをサポートし、データをロードするだけでなくことを保証するために、また、予測モデルの確立が、中・データベーススコアリングのための簡単な展開モデルを高度なアルゴリズムを使用していますサポート。データ科学者は、既存の統計パッケージや好みの言語を使用することを可能にしながら。
ビッグデータのためのより良いプラットフォーム:
アリ、テンセント、百度、Huawei社とスターリングがあり曇らせます。
アリクラウドビッグデータプラットフォームより技術的な、より完全な製品。
通常の下に大規模なデータ製品、製品およびソリューションのテンセント部分的分析。
多くの偏ったマーケティング・ソリューションに加えて、比較的完全な大規模なデータ製品Baiduの。
Huawei社の製品は、産業分野のお客様のニーズに基づいたソリューションを最適化。
スターリングは、製品の非常に特徴的ですが、研究開発能力と市場が弱いです。
ビッグデータ分析プラットフォームを構築するには?
一般的な手順:
1、Linuxシステムのインストール
図2に示すように、分散コンピューティング・プラットフォーム/取り付けアセンブリ
分散システムの現在の使用の大半は、オープンソースのHadoopシリーズです
3、データのインポート
データインポートツールSqoop
図4に示すように、データ解析
前処理データ分析とデータモデリング:データ分析は、一般に、2つの段階を含みます。
このプロセスデータの前処理はQLとインパラスパーク、ハイブSQLを使用する場合があります。
データモデリングの分析には、Sparkを使用するのが最適です
5、および結果の可視化APIを出力
一般式または元のデータの一部による表示結果の可視化。