ビッグデータの概念、挑戦、アルゴリズム、治療と研究の進捗状況

ビッグデータが格納モードと能力、コンピューティングモードと容量で、今保存、および処理を満たすことができない。ビッグデータビッグデータは、サイズ、一般的に、実行時にソフトウェアツールを使用したデータセットは、収集、管理、および処理データ機能を耐えることができ超えを指し、生成された相対的な概念規模データセットがあります。

ビッグデータの最初に、基本的な考え方

ビッグデータが格納モードと能力、コンピューティングモードと容量で、今保存、および処理を満たすことができない。ビッグデータビッグデータは、サイズ、一般的に、実行時にソフトウェアツールを使用したデータセットは、収集、管理、および処理データ機能を耐えることができ超えを指し、生成された相対的な概念規模データセットがあります。

大規模なデータの前処理

識別メイン完全なデータ抽出、洗浄、および他の操作を受けました。

(1)抽出:様々な構造およびタイプを有することができるデータを取得することにより、データ抽出処理は、単一の構成にこれらの複雑なデータに私たちを助けることができるか、迅速な分析プロセスを達成するために、プロセスを容易にします。

(2)クリーニング:他の人が完全に誤ったデータの干渉項であり、したがってデータが抽出するフィルタリングすることによって、「ノイズ除去」しながら、すべての価値はない大規模なデータについては、いくつかのデータは、我々が懸念されるものではありません有効なデータ。

大規模なデータによって引き起こされる数学の問題

ビューの数学的ポイントは、コンピュータがあり大きく、大きなデータセットになり、絶対に偉大なデータは存在しない、コンピュータ内のすべてのデータセットは有限集合です。

大規模なデータサンプリング - 大規模なデータが小さくなると、アルゴリズムはサンプルの最小セットを見つけると適応するために、サンプリング誤差アルゴリズムの効果

ビッグデータ表現 - 表現保存することを決定し、アルゴリズムの効率の効果を示しています

大規模なデータの不整合 - 失敗するアルゴリズムとなしソリューションを引き起こし、どのように一貫性のない消化

ビッグデータの超高次元の問題 - 超高次元データが得られたアルゴリズムの複雑さを増す、まばらです

ビッグデータの不確実な次元の問題 - 多次元データの共存、特定のディメンション困難な作業に応じて

ビッグデータの不良設定問題 - ジレンマに問題の原因となったはるかに高い次元の解

ビッグデータの特性

緻密でスパース共存:ローカルおよびグローバル密スパース

そして、冗長性と不足:多くの冗長性および部分的削除

明示的および暗黙の両方:明示的および暗黙の豊かな多数の

静的および動的なちらつき:静的、動的な進化に関連付けられています

多様な異種共存:マルチ多様かつ異種の異性

大きな矛盾でご利用可能:大型低および使用可能な希少

現在のビッグデータの拡張

大きなデータサイズは進化の指標であります:

データ処理タスクの現在の単一のセット、TBの数十からのPB-レベルスケールデータ10(TB«PB«EB«ZB)

大規模なデータ依存のタスクを処理するために、合理的な期間は、目標を待つことができます。

気象データは、時間のレベルである必要があり、数分内でのみ効果的な要件を予測する地震データは、データマイニングの7日以内に処理されるデータとの接触を失った航空機は、一般的に12時間以内に必要とされます

第二に、大規模なデータパラドックス

ビッグデータは、科学的探究の第四パラダイムとして定義されています。実験科学の数千年前、科学的理論や計算科学数十年数百年前に続いて、今日のデータの爆発は、統一されたデータ集約型科学、理論、実験と計算機シミュレーションのパラダイムを出産しました。ビッグデータは、生産の「非競争的」要因として記載されています。ビッグデータは、「無尽蔵」機能があり、絶えず新たな富を作成、共有、公開の広い範囲で一定の再利用、再組織化および拡大におけるその潜在的価値を持続放出します。ビッグデータの価値に根ざしたことは、長期的、広範な社会的問題を破る非特異的な要因の未知の、今後の動向を予測することです。そして今、ビッグデータ技術とアプリケーションは引き続き、短期、特定の市場ニーズを満たすために制限され、歴史的およびリアルタイムデータの相関分析に限定されています。パラドックスを解決するプロセスは、それは理論であると方法は、プロセスにされて入ってきました。そしてパラドックスを解決するための努力をしようとする人々、ちょうどビッグデータは根を下に置くための駆動力です。

方法論の欠如

2008年以来、「ネイチャー」誌があるため、「ビッグデータ」特別号を発売し、大規模な学術的な議論からビッグデータの概念に、企業のデジタル変換になって、その後、「オープンガバメント・データ」の戦略的なレイアウトまで。しかし、単なる数で、大規模、および3桁の大きさなどがしきい値を設定していないキャッチので、簡単にビッグデータと前回の「大量データ」、「超規模データ」と他の区別することはできません。

方法論の欠如が最大の障害となっています。ビッグデータ開発のコア電源は、測定記録し、世界の飢餓、これらのデータ、技術のニーズを満たすために欲望の分析と三つの要素を考え、人々に由来します。コンピューティングでは、通信技術は安価、便利なデジタルストレージに、今日より洗練されたとなっています実際には、それは思考であり、方法論は、大規模なデータの成否を決める、技術を提供するために、標準化され、商品化の方法である、データがどこにでもある、瞬間の普及キーは、今のところ、方法論の学術と産業間のギャップを埋める、技術とアプリケーションがまだ不完全です。

で社会問題でゴールドラッシュ

3つの危機の誕生の発展につながった数学の歴史として幾何学の公理あり、パラドックスのような集合論と近代的なデータの作成は、非常に大きな弾み理論、技術およびアプリケーションの進捗状況です。ビッグデータはパラドックスを解決するために、だけでなく、人気とビッグデータアプリケーションの社会的価値の放出を促進します。メディアの誇大広告や学術会議の後、ビッグデータの技術動向が突然下に落ち、多くのスタートアップ企業が不安定になる......この有名なガートナーのハイプ・サイクルに基づいたデータ、ビッグデータは、幼児期を経験してきたし、投機の、次の3〜5年の谷に泡。

市場のギャップ

ビッグデータのマーケティングモデルはイノベーター、アーリーアダプター、初期の大多数、後半過半数と5つのステージなどの出遅れが発生します。我々は呼んで最大の、最も危険な亀裂が早期に市場と主流の市場の間で存在するの5つのフェーズ、間の4本の亀裂があります「のギャップが。」

主流のビッグデータは、それぞれがビッグデータ市場シェアの1/3を占め、どちらも、早期の過半数と後期多数の実用的な保守主義から来ています。これら二つのグループの共通の特徴は、両方の良い情報技術インフラストラクチャと深い蓄積ビッグデータを持っている、ともビッグデータの社会的・経済的価値に精通していることです。前者はアプリケーションの実証済みのソリューションと成功を見たいと異なっている、彼らは主に金融、エネルギー、通信、その他の公共サービスです。後者は、それらのほとんどは、環境、エネルギー、健康や行政の他の社会的な問題に対処することにコミットしている、アプリケーションのより安全かつ信頼性の高いデータ保護およびビッグ幅広い社会的な基盤が必要です。

イノベーターは明白である引っ張りだこビッグデータ技術とアプリケーションは、早期の市場のサポートも簡単です取得します。しかし、彼らは「時代遅れの」であり、主要な主流の市場データナゲッツになるために終了したため、彼らは、参加する「ファッショナブル」ですので。残念ながら、多くの企業が「被害者のギャップ」になり、大規模な実際のデータ・アプリケーション市場の到来を逃したかもしれません。

全体的に商品企画

現代マーケティングの創設者 - セオドアレビットは「全製品」の概念を与えます。この概念によると、ビッグデータ製品は、一次産品の心理的なニーズを満たすために、目的の高次の参加と拡張製品と潜在的な製品の4パートの自己実現を達成するために、一般的な製品の「コアの名所」として含まれるべきです。

推奨読書の記事

どのようにビッグデータエントリー

ビッグハイエンドのデータ収集、知識の共有スパークを禁止

ビッグデータをどうするかを学習した後

 

おすすめ

転載: blog.csdn.net/sdddddddddddg/article/details/91631608