ビッグデータテクノロジー、データを学習さ半分ダニエルの最も体系的な在庫

ビッグデータといえば、多くの人々はしばらくの間、話をすることができますが、ビッグデータのコア技術であるかを尋ねた場合、多くの人々は12が来た言うことができないと推定されています。

マシンデータの可視化から学ぶために、ビッグデータの開発はすでにかなり成熟した技術ツリーを持っていた、異なる技術は、技術的なアーキテクチャの異なるレベルを持っているだけでなく、新たな技術用語の出現毎年。このような複雑な技術インフラに直面して、白ビッグデータとの最初の接触の多くは、ほとんど常に気力をくじきます。

:実際に、私はビッグデータがコア技術は何よりも三つのプロセスよりも、非常に単純であるかを知りたいデータへのアクセス、カウントデータ、データ一部の人は、4つの簡単な言葉にほかなら、観点から、あまりにも漠然とした、ビッグデータのライフサイクルを言わないか、と思うかもしれません:大規模なデータの収集、ビッグ、ビッグデータストレージを前処理データ、ビッグデータ分析、大規模なデータを形成するために一緒に来ましたライフサイクルのコア技術、別途以下:

データの大規模なコレクション

さまざまなソースから大規模なデータ収集、すなわち、大規模な構造化および非構造化データを、取得が行わ。

  1. データベースの取得:人気SqoopとETL、従来のリレーショナルデータベースのMySQLとOracleは、多くの企業がまだデータを格納する方法としても作用しているされています。もちろん、ポット、才能オープンソース自体の現在だけでなく、HDFS、HBaseの主流Nosqデータベースの同期化および統合の間でデータを可能にする、大規模な統合されたコンテンツデータを統合します。
  2. ネットワークデータの収集: 1種類またはWebクローラーサイトオープンAPIを用いて、その一体構造のローカルデータに非構造化、半構造化、Webページからのデータ、およびデータ収集を取得します。
  3. ファイルコレクション:リアルタイムキャプチャおよび文書処理技術などは、ログ収集と増分買収はELKベースなど、水路。

ビッグデータテクノロジー、データを学習さ半分ダニエルの最も体系的な在庫

データ収集のライフサイクル

第二に、大規模なデータの前処理

大規模なデータは、「洗浄、充填、平滑化、合成、標準化、整合性チェック」およびデータ解析の前にデータの改善を目的とした一連の動作などの用語を参照すると、前処理、最初に実行生データを収集します品質とは、後の解析作業のための基礎を築きます。:データの前処理は、次の4つの部分が含まデータクリーニング、データ統合、データ変換、データの法令をシステムたいビッグデータを学ぶために、あなたはケリJunyangを学ぶためにビッグデータ交換技術に参加することができます:522 189 307

ビッグデータテクノロジー、データを学習さ半分ダニエルの最も体系的な在庫

大規模データの前処理

  1. データクリーニングが:使用ETL及び他のクリーニングツールを指す、データ(対象の属性が欠落)、ノイズデータ(存在するエラーを有するデータ、または期待値データからの偏差)、矛盾を処理するデータが欠落しています。
  2. データの統合:パターンマッチング、データの冗長性、競合の検出とデータ値を処理する:統一されたデータベース・ストレージに結合異なるデータソースからのデータを、記憶方法、三つの問題の解決に焦点を指します。
  3. データ変換は:治療の過程で抽出された一貫性のないデータの存在を指します。それはまた、その後の分析の結果の精度を保証するために洗浄するために、ビジネス・ルールに従って、すなわち、異常なデータは、データを介して清掃作業を含んでいます
  4. データ法令は:元のデータに基づいて、最大の保持を意味する流線にデータの最大量、動作はデータの小さな組を得るために、前記データ収集側、次元削減、データ圧縮、数値法令、層化の概念。

第三に、大規模なデータストレージ

大規模なデータストレージ、メモリは、3つの典型的な経路を含む、キャプチャされたデータを格納するために、データベースの形でプロセスを指します。

1、MPPアーキテクチャに基づく新しいデータベースクラスタ

モデルを計算する効率的な分散MPPアーキテクチャと組み合わせたシェアード・ナッシング・アーキテクチャ、カラムストア、粗粒インデキシングによって技術データ処理の多くを使用して、大規模なデータストレージ業界のための鍵データが拡大しました。低コスト、高パフォーマンス、高スケーラビリティおよびその他の特性は、広くビジネス分析型アプリケーションの分野で使用されてきました。

PBレベルのデータ分析機能MPP製品に基づいて従来のデータベースと比較すると、大きな利点があります。ナチュラル、MPPデータベースは、エンタープライズデータウェアハウスの新世代のための最良の選択肢となっています。

拡張とパッケージング技術のHadoopに基づいて2、

Hadoopのベースの技術膨張およびパッケージング、およびデータは治療が困難で、従来のリレーショナル・データベース(非構造化データ記憶および計算するためのような非構造、半構造化データを()処理で良い、オープン相関特性のHadoopの使用のためのものであるシーン大きなデータ、従来のプロセスに由来する複雑なETL処理の複雑なデータマイニングと計算モデル、等)。

技術の進歩により、そのアプリケーションのシナリオは徐々に現在最も一般的なアプリケーション・シナリオ、展開されます:インターネット上とのNoSQL技術の数十を伴う拡張パッケージHadoopのサポート分析により、高いデータストレージを実現します。

図3に示すように、大型機械データ

これは、ソフトウェアとハ​​ードウェアの組み合わせの製品を設計し、大規模なデータの分析です。それは、統合された一連のサーバ、ストレージデバイス、オペレーティングシステム、データベース管理システムと同様に、プリインストールソフトウェアのデータ照会、処理、解析と最適化で構成されて良好な安定性と縦方向の拡張性を持っています。

ビッグデータテクノロジー、データを学習さ半分ダニエルの最も体系的な在庫

大規模なデータストレージ

第四に、大規模なデータマイニングの分析

視覚分析から、データマイニングアルゴリズム、予測分析、セマンティックエンジン、データ品質管理、カオス的データ、プロセスの抽出、抽出および分析。

1、視覚分析

ビジュアル分析、明確に伝え、効果的な情報の分析ツールと通信するためのグラフィカルな手段の助けを参照。主に異種データ相関分析を分散させるために、すなわち、ビジュアルデータ分析プラットフォームを用いて、大量のデータの相関分析に使用され、プロセスの完全な分析チャートを作ります。

これは、簡単に受け入れる機能を、明確かつ直感的な簡単なを持っています。

ビッグデータテクノロジー、データを学習さ半分ダニエルの最も体系的な在庫

FineBI可視化

2、データマイニングアルゴリズム

すなわち、データと計算、データ解析ツールをデータマイニングモデルを作成し、テストによるデータマイニングアルゴリズム、。これは、大規模なデータ解析の理論的中核です。

異なるデータタイプとフォーマットに基づいてデータマイニングアルゴリズムの、及び異なるため様々なアルゴリズムは、異なるデータ特性を示すであろう。しかし、一般的に、プロセスのモデルを作成すると、その最初の分析ユーザーが入力したデータと同様であり、その後、マイニングモデルの特定の種類のパターンおよび傾向を探し、これらのパラメータの分析および適用の結果によって定義された最適なパラメータを作成します全体のデータは、実行可能なモデルと詳細な統計情報を抽出するために設定します。

ビッグデータテクノロジー、データを学習さ半分ダニエルの最も体系的な在庫

FineBIデータマイニング機能

3、予測分析

予測分析は、高度な解析機能(特に統計分析、予測モデリング、データマイニング、テキスト分析、物理的分析、最適化、リアルタイムのスコアリング、機械学習など)の様々なを組み合わせることにより、大規模データ解析のアプリケーションの最も重要な分野の一つであります不確実な事象の予測の目的を達成します。

ヘルプユーザーへのトレンドポイントは、構造化および非構造化データ、パターンとの関係、及び、将来の事象を予測する行動の基礎を提供するために、これらの指標を使用して分析します。

ビッグデータテクノロジー、データを学習さ半分ダニエルの最も体系的な在庫

FineBI予報復帰

4、セマンティックエンジン

セマンティックエンジンは、インターネット検索のユーザーエクスペリエンスを向上させる、既存のデータにセマンティクスを追加することにより、操作を参照してください。

5、データ品質管理

これは、データ品質問題のすべての種類のデータを改善するための識別、測定、監視、早期警報及び他の動作において生じ得るデータのライフサイクル(等計画、取得、格納、共有、メンテナンス、アプリケーション、死ぬ)の各段階を指し品質管理の一連の活動。


上記は、具体的には、ここではそれらのいくつかの多くがありますされている大きな通り、ビッグデータフレームワーク技術からです。

ファイルストレージ: HadoopのHDFS、タキオン、KFS

オフライン計算: HadoopのMapReduceの、スパーク

ストリーミング、リアルタイムの計算:嵐、スパークストリーミング、S4、ヘロン

KV、NOSQLデータベース: HBaseの、Redisの、MongoDBの

リソース管理: YARN、Mesos

ログ収集:水路、スクライブ、Logstash、Kibana

メッセージシステム:カフカ、StormMQ、ZeroMQ、RabbitMQの

分析:ハイブ、インパラ、豚、プレスト、フェニックス、SparkSQL、ドリル、FLINK、麒麟、ドルイド

分散コーディネーションサービス:飼育係

クラスタ管理とモニタリング: Ambari、神経節、Nagiosは、Clouderaのマネージャー

データマイニング、機械学習: Mahoutの、スパークMLLib

データの同期化: Sqoop

タスクのスケジューリング: Oozie

......

公開された174元の記事 ウォンの賞賛3 ビュー20000 +

おすすめ

転載: blog.csdn.net/mnbvxiaoxin/article/details/104829154
おすすめ