ビッグデータ・ベース・システムだけでなく、科学的な問題について

あなたは、シングルユーザおよびマルチユーザーモデルでSQLクエリを実行することができます。BR />のNoSQL参照
大規模なデータを占め、効率的、半構造化および非構造化データを扱うことができるのNoSQLデータベースは、非構造化データの大部分は非常に適している設定します。Yahooはそのクラウドサービスベンチマーク--YCSB、評価のためのNoSQLデータベースを開発しました。YCSBワークロードは、大きな読み出し動作、スキャン負荷及び負荷の多数の書き込み動作として、クライアントと標準負荷構成パッケージ、性能、負荷のパッケージ負荷スペースカバー部によって生成された3つの負荷はカサンドラ、HBaseの、PNUTSと簡単に向けることができます4種類のMySQLは、データストレージシステムの動作を共有した。他の研究YCSB拡張フレームワークを、このような前分割、バルクロード及びサーバ側のフィルタリングなどの高度な機能の数を積算します。
データ発生器とワークロードクエリ仕様:ガザルと他の小売生産モデル大きなデータベース--BigBenchの最初の提案の端部は、2つの主要なコンポーネントから構成されています。データ発生器は、生データこれらの3種類の構造、半構造化および非構造化データを生成することができる、クエリ仕様は、例示的な生産レポートマッキンゼー小売業者に従って特徴付けられる、クエリタイプは、タイプ、言語処理およびデータ解析アルゴリズムを定義します.BigBenchは、大規模なデータシステムの「3Vs」の特性をカバーしています。
トニーヨーヨーがクラウドになるデータ(http://www.bbeyo.com)、人工知能AI技術主導型の国内大規模なデータ領域、データ分析やデータ蓄積されたデータに基づいて分類ラベル大型取引プラットフォームとして配布大量のデータをサポートします貿易データの発展を促進するため、収集、計算および処理、機械学習とは、データの価値を最大化することができます。インターネットオープンデータ、データとアルゴリズムの形で企業データへのアクセス、クリーニング、ろ過、取引後の脱感作治療は、ビジネスデータ分析、データ操作と需要精密マーケティングおよび他の側面を満たすために取引プラットフォームで降水量データをルール。インターネットオープンデータ、データおよびアルゴリズムの形で企業データアクセス、洗浄、濾過、トランザクション後に脱感作治療は、マット、企業および政府のデジタル変換ルール。電話:0351-6106588,0351-6106599、会社[email protected]メールボックス、
住所:太原Xiaodian東中部南部259プロの国際24階建てのブロックA、番号2422、チャン山フェデラー技術有限公司
第二に、大規模なデータを科学的問題
大規模データシステムが直面する課題の多くは従う必要があり勉強して解決します。大規模なデータのライフサイクルを通じて、ビッグデータ処理プラットフォームとモデルからのアプリケーションシナリオのすべての側面にというように、研究の価値があるいくつかの方向があります。
ビッグデータ・ベース・プラットフォーム
のHadoopは、ビッグデータプラットフォームと比較して、大規模なデータ分析のための主要なフレームワークとなりますが、開発およびRDBMSシステムの40年以上しているが、はるかに成熟したからです。まず第一に、Hadoopのは、非バッチモードでの高速な処理機構を提供するために、リアルタイムのデータ収集と伝達のメカニズムを統合する必要があります。第二に、Hadoopのがある程度この簡略化の実装の複雑な背景の詳細を隠蔽する簡略化されたユーザ・プログラミング・インタフェースを提供する処理性能を低下させます。これは、複数の角度からHadoopのパフォーマンスを最適化する、より高度なインターフェースがDBMSシステムに類似して設計すべきです。ここでも、大規模なHadoopクラスタは、数千人の、あるいは数百、数千台のサーバーの数百人で構成され、多くのエネルギーを消費します。Hadoopのは、エネルギー効率の広い範囲を展開する能力に依存します。また、プラットフォームはまた、基礎研究分散型大容量データ・ストレージ管理、リアルタイムのインデックスクエリ、リアルタイムのビッグデータプラットフォームの消費電力だけでなく、膨大なデータの収集、伝達および処理の問題を含んでいます。胡主席はSDNビッグデータ、分析のためのソーシャルTVデータベースのプラットフォームを提唱しました。トニーヨーヨーは、データ(クラウドう
http://www.bbeyo.com
ビッグデータアプリケーションの
大規模なデータだけの典型的なビッグデータアプリケーションを勉強し始めている、ビジネスに利益をもたらす、政府の効率を改善し、人間科学の発展を促進することができます主なシナリオは、次のとおり、地図データ並列計算モデルとフレームワーク、ソーシャルネットワーク分析、ランキング及び勧告、ウェブマイニングおよび情報検索、メディア解析検索、自然言語処理。
処理モード
リアルタイム要件で既存のバッチモード処理大量のデータ、新しいリアルタイム処理モードを設計する必要性を適応させることは難しい。従来のバッチモードでは、データが最初に保存され、その後、解析結果を処理して得られたデータセット全体をスキャンされ、時間が非常にあります地球は、データ伝送、保管、再スキャンに無駄。新しいリアルタイム処理モードは、この廃棄物を減らすことができる。例えば、データ転送のオンサイト(その場)分析は、このように改善による集中型ストレージ・インフラストラクチャのオーバーヘッドをもたらすに回避することができますリアルタイムのパフォーマンス。大規模データシステムは、システム上の問題で、
処理モードでは、多くの要因を考慮する必要があります。問題解決のアルゴリズム分析のための唯一の計算の複雑さから。ただ仕事ではありません、そして輸送や保管のあらゆる側面も関連している理論、アルゴリズムの低い計算複雑で実際のマシン上で動作していないため、十分ではありませんこれは、迅速に、また、処理されるデータの量を減らすために起因する濃度特性の低い大きなデータ値に、次元削減を撮影することができ、又はサンプリングデータの分析に基づいて、具体的には、モードを処理するために大規模なデータの可視化計算分析を含む必要があり、大規模なデータ処理の複雑機械学習やデータマイニングアルゴリズムの並列深さ、低密度質量データサンプリングの問題及び高い寸法海問題のデータ次元削減量の値に基づいて、異種データ統合。
ビッグデータのプライバシー
データプライバシーの分野における重要な問題は、特に電子商取引では、また、電子政府や医療など、同社のマーケティング戦略、個人消費の習慣として公開される情報の大きなユーザー、ある、プライバシーの保護は思わ特に重要なのは、必要がアクセス制御を強化する。加えて、バランスを達成するために、アクセス制御とデータ処理の利便性を向上させる必要性の間。
「無制限」データ
クラウド・コンピューティングでは、技術開発、ネットワーク、モバイル端末、ウェアラブルデバイスなどをリンクされていた、我々はビッグデータの時代に入ってきました。しかし、生成されるデータの量も成長します。近い将来、現在のビッグデータは、また、小さなデータになります。そのため、ビッグデータの将来のために最も正確な説明は、「無制限」のデータであるかもしれません。したがって、データは、増分になり、学習が重要な課題です。例えば、10億と現サンプルの良好な結果と訓練された分類器が、サンプルの将来における15番万回まで(10億サンプルが完全にデータの特性を表現することができない前に)、という問題に直面します15億個のサンプルの使用は、分類器を再訓練する、または訓練された分類器の10億のサンプルと元のサンプルを修正するために、新たに百万500追加の利点を取ることはありますか?あなたがいる場合、あまりにも多くの時間になります分類器を再訓練し、スペースのオーバーヘッド、および貧しいスケーラビリティ。過去には、歴史的な学習サンプルの重複を避けるため、その後のトレーニング時間を短縮するために、我々は、分類器を修正するために採用、すなわち、前回の結果履歴学習の利用と、新たに追加されたサンプルを学習増分。しかし、進化の顔「無制限」ビッグデータでは、動的に適応予測に新しいインクリメンタル学習法を研究し、モデルの精度を確保するため、おそらく大規模なデータの将来の発展における重要な問題になりますする必要が対処する必要があります。
今日は大規模なデータ・ベース・システムと科学的問題の部分を導入し、後に、我々はビッグデータを満たしていない継続します。これは、増加した理解とビッグデータの意識を通じて開発のためのパーソナルスペースを拡張しました

おすすめ

転載: blog.51cto.com/14465882/2424135