外国のインターネット企業ビッグデータ技術インフラの研究

Googleの技術アーキテクチャビッグデータクエスト

A、グーグル

Googleは、ビッグデータ時代の創設者であるそのビッグデータ技術アーキテクチャは、インターネット企業の焦点となっている学び、研究に熱心で、だけでなく、ビッグデータ技術アーキテクチャの業界のベンチマークとモデル。

1、Googleのデータセンター

Googleは世界最速、最も強力な、最高品質のデータセンターを構築してきました、それが離れ、カリフォルニア州マウンテンビューの本社からの8つの主要なデータセンターです。、サウスカロライナ州バークレー郡、アイオワ州の米国の州に位置しています状態カウンシルブラッフス、ダグラス郡、ジョージア州、オクラホマ州メイズ郡、レノア、ノースカロライナ州、オレゴン州DALS、米国の州外の他の二つ、すなわちフィンランドハミナとベルギー聖Ghislainの。また、Googleはまだ、中国、台湾、香港、中国、シンガポール、チリだけでなく、データセンターの設立です。

2、Googleの検索エンジンのプラットフォームとビッグデータ解析コア技術の新世代

GoogleはGFSのMapReduce BigTableのの創設者であるが、Googleの検索エンジンプラットフォームの新世代は、より多くのことができるシステムと古いシステムを置き換えるために、徐々にで、次世代の検索エンジンのプラットフォームは、いくつかのコア技術システムがあります。

まず、代わりにインデックスシステムパーコレーターの使用をベースとMapReduceのバッチ処理増分インデックスシステムの、インデックス・システムは、より高速なMapReduceのバッチ検索インデックスシステムよりもカフェイン、と呼ばれています。

Googleの技術アーキテクチャビッグデータクエスト

第二に、BigTableのもGFS2(第二世代のGoogleファイルシステム)として知られている、カフェインの検索インデックスシステムを確立し、使用するように設計されて、巨像のために特別に設計されたストレージを配布しました。

第三に、カラムストアデータベースBigTableのが、大規模なデータセットのより良いサポートインタラクティブ分析するために、GoogleはドレメルとPowerDrillを開始しました。ドレメルは、大量のデータセットの非常に大きな量を管理するように設計されてPowerDrillは、大きなデータセットの小さな数を分析するように設計されている間、(大規模なデータセットを参照するが、データ(サイズと大きいが、各データセットのデータセットの数を参照) )時間のセットの少数のより堅牢なパフォーマンス分析を提供します。

第四に、Googleのインスタントリアルタイム検索エンジンのストレージと分析基盤にサービスを提供します。

Googleのネットワーク、より効率的かつグラフアルゴリズムである第五プレゲル、。

Google検索エンジン、プラットフォームの新世代、月額ビデオの40億時間、4.25億Gmailユーザー、1.5億ギガバイトのWebインデックスで、検索結果0.25秒を達成することができました。

3、クラウドサービスのためのGoogleの基盤

、コンピューティング、ストレージ、およびアプリケーションベースの巨像、Googleのユーザーがクラウドサービス提供。コンピューティングサービスは、APPエンジン(有力候補)のエンジン(ComputeEngine)計算およびアプリケーションを含む、クラウドストレージ(CloudStorge)を含むストレージサービス、クラウドSQL(CLoudSQL)、クラウドデータストレージ(クラウドデータストア)、永続ディスクやその他のサービス、クラウド・アプリケーション・サービスを含みますBigQueryは、クラウド端末(エンドポイントクラウド)、キューイング、バッファ。

4、Googleのビッグデータ・インテリジェンス・アプリケーション・サービス

顧客のセンチメント分析、取引リスク(詐欺分析)、製品の推奨、メッセージのルーティング、診断、顧客の解約予測、法的コピーの分類、電子メールコンテンツフィルタリング、政治姿勢予測、および他の多くの種の同定など、Googleのビッグデータ分析インテリジェンスアプリケーション側面。伝えられるところでは、ビッグデータは毎日Googleに収益は$ 23M(2300万ドル)をもたらしました。

例えば、いくつかの典型的な用途は以下のとおりです。

(1)地図をもとに、Googleの伝統的なアプリケーションは、データストレージ、データ解析、ログ解析、検索品質、および他のデータ分析アプリケーションを含む、減らします。

(2)ドレメルシステムに基づいて、Googleはその強力なデータ解析ソフトウェアおよびサービスを開始 - BigQueryのを、それはまた、Googleの自身の使用のインターネット検索サービスの一部です。GoogleはAmazon Webサービス(Amazon Webサービス)に似たオンラインデータ分析サービスの販売を開始し、市場しようとしているように、企業の競争などのコンピューティングサービスを曇らせます。このサービスは、ビジネス・ユーザーは秒以内にスキャンの完全テラバイトを助けることができます。

(3)統計的アルゴリズムベースの検索は、Googleがエラー訂正、統計型の機械翻訳や他のサービスを書き込むための検索エンジンを立ち上げました。

(4)Googleのアプリケーションの動向。検索用語にユーザーの注意により、迅速はい社会にどのようなホットスポットを理解しています。広告主のために、その商業的価値はすぐに彼らは広告のどこかに置く必要があり、ユーザーが気に知っているされています。したがって、Googleはまた、そのような「アドワーズ広告でブランドの認知度向上」などの大規模なデータ製品の数を開発している「アクティブGRP」というように、ヘルプ広告主に分析し、そのキャンペーンの効果を評価します。

(5)、Googleのインスタント。キーワードプロセスを入力して、Googleインスタント示した彼らの検索結果を予測することが可能になります。

Googleのビッグデータ・プラットフォーム・アーキテクチャは、まだ目標は、より大きなデータセット、より速く、より正確な分析と計算を追いかけている、進化しています。これはさらにビッグデータの技術開発の方向をリードします。

http://s12.sinaimg.cn/bmiddle/4aa50b4dtx6DoIHk8Zl0b&690

二、ヤフー

Hadoopのは、最も人気のビッグデータ技術のアーキテクチャは、多くの大規模なデータ・アプリケーションは、Hadoopのプラットフォームの上に構築されています。多くの人々は、Hadoopのの進化と発展に、ヤフー社からの寄与の70%のHadoopは、Apache Foundationのトップオープンソースプロジェクトではなく、誰もが知っていることを知っています。Yahooは最大のユーザーのHadoopプラットフォーム、アプリケーションとのHadoopの商用化の最強サポーターの重要なプロモーターである、Hadoopのは、同社のコアヤフーのクラウドコンピューティングプラットフォームとなっている、同社の最大の単一ヤフーHadoopクラスタは、4000個のノードから構成され、ヤフー社推薦システム、広告分析や他のアプリケーションがHadoopの上に構築されている分散コンピューティングプラットフォーム、開発者フォーラムを通じてヤフー社は、R&Dに毎年、ヤフー企業スピンオフのHadoop技術と投資の専門家と技術者の大規模なマスターのHadoopプラットフォームを訓練し現在、最も急速に成長している商業用のHadoop会社の一つ-Hortonworks。ビッグデータ技術インフラのYahooの新世代 - Yahooの会社ではなく、彼らが積極的にHadoop2.0を促進し、これらの成果の自己満足に嘘はなかったです。

ビッグデータ技術アーキテクチャのYahooの新世代は、次のコンポーネントで構成されています。

図1に示すように、芯糸

YARNまたはMapReduce2.0は、コア技術のアーキテクチャと呼ばれ、それは次世代のオペレーティングシステムヤフービッグデータプラットフォームとして見ることができます。Hadoop1.0の解決のパフォーマンスのボトルネックに、MapReduceの中JobTackerにおける糸は2つの主要な機能(リソース管理及びジョブスケジューリング/モニタリング)は、分離を達成するために、メインメソッドは、グローバルリソースマネージャを作成することである(このResourceManagerを有し、 RM)とプライマリアプリケーションサーバ(ApplicationMaster、AM)のためのアプリケーションの数。そのような変更後、大幅に改善さスケーラビリティにおける糸、支持MapReduceのクラスタ10000 +コンピュータ性能を改善し、Hadoopのコンピューティングフレームワーク以外のサポートが、このような低レイテンシとして、計算フレームが流れます。

計算処理フレーム。Hadoopのバッチをサポートすることに加えて、そこに統合されており、スパークストームピアは、フレームワークを計算しています。オフラインデータ分析のために、どの、Hadoopの、マルチ反復バッチデータ解析のためのスパーク、嵐は、データをストリーミングするためのリアルタイム分析と予測されます。糸で、オフラインヤフー大規模なデータ、ニアラインとリアルタイムデータ統合を実現しています。

2、ストーム

ストームは、もともとのツールを計算Twitterのストリームでした。次世代技術のアーキテクチャ実際にヤフーの計算は、嵐と嵐-YARN YARNは、リアルタイムのストリームをサポートするために統合になります。嵐のフレームは、データタイプ(すなわち、データストリーム)のリアルタイム計算および分析のために設計され、変化データの移動における処理の流れをリアルタイムで分析し、捕捉された情報は、ユーザにとって有用であるかもしれない、その結果を迅速に送ら。たとえば、パーソナライズされた検索広告をサポートするために、リアルタイム処理システムは、数千人から、毎秒数百万のユニークユーザーを必要とします

http://s8.sinaimg.cn/bmiddle/4aa50b4dtx6DoJUe1Ztd7&690  クエリの万回、およびリアルタイムのユーザセッションを分析するには、広告の関連性と予測モデルの精度を向上させるために備わっています。

3、スパーク

スパークは、コンピューティングプラットフォームのクラスタカリフォルニア大学バークレー校AMPLabから発信され、正式にApacheのインキュベーターに参加するために適用した、Yahooの次世代技術のアーキテクチャは、その糸を統合します。スパークは、マルチ反復バッチ処理からインメモリコンピューティング、折衷、ストリーム処理を倉庫等軽量、迅速な計算とを用いて、計算し、他のコンピューティング・パラダイムデータに基づいています。スパークのScalaベースの言語は、Hadoopの軽量システムよりも数行のコードであるが、それはまた、非常に高速で、小さなデータセットの典型的な反復的機械学習、アドホッククエリ、大規模なデータセット用のサブ秒の遅延を達成することです図は、Sparkは百倍に高速でのMapReduce、ハイブとプレゲル10回を達成よりも、バージョンに基づいて、アプリケーションを計算します。

図4に示すように、記憶層

基盤となるストレージはまだHadoopのHDFSファイルシステムとNOSQLデータベースのHBaseに基づいています。

現在では、ものの糸に順番に次世代アーキテクチャの中核技術として、多くの側面があり改善が必要ですが、その戦略的な位置は、基本的にヤフーに設立されました。その通常のオープンソース戦略は、福音書はまた、ビッグデータ業界をもたらすでしょう。

三、アマゾン

ビッグデータ分析は、一般的に、分散コンピューティングインフラストラクチャ、分散コンピューティングフレームワーク、およびストレージシステムの大規模な数に依存する必要があります。しかし、必ずしもすべてのユーザーは、これらのビッグデータ基盤を確立するための条件があります。巨大な市場の需要とユーザーの間に矛盾は、コンピューティングリソースがますます顕著になっ限られ、この文脈では、ビッグデータ、クラウドサービスがされて入ってきました。アマゾン、Googleや他のインターネット企業は、空想のケーキビッグデータ、クラウドサービス市場をとっている支払っ利用のユーザーに提供される大規模なデータ解析WEBサービスを開始しました。

1は、Amazon Elastic MapReduceの(EMR)

アマゾンElastic MapReduceは(EMR)は、アマゾンのクラウドサービスが提供するビッグデータ分析です。これは、プロセスに簡単にそれが提供する分散コンピューティング能力に基づいて、Hadoopのインフラストラクチャサービス、企業、研究者、データアナリストと開発者の商業的で、自分のニーズに応じて大量のデータを分析します。これは、Amazonのクラウド上で実行されているHadoopクラスタの仮想サーバーによって解析ジョブを送信するために、データの顧客の膨大な量を分析するために使用しました。2009年以来、何千もの顧客は、世界中のクラスタ数百万を開始するためにアマゾンEMRを使用しています。Hadoopのフレームワークは、このようなハイブ、ブタ、HBaseの、DistCp、神経節、MahoutのとRとして、上記実行中のオープンソースプロジェクトでは、Amazon EMRに統合されています。アマゾンEMRはすぐに自分の能力の大きさを設定するための柔軟性を必要とすることができ、データ集約型コンピューティング・アプリケーション、完全なWebインデックス化、データマイニング、ログファイル分析、機械学習、財務分析、科学的シミュレーション、およびバイオインフォマティクス研究や他のタスクを実行します。

クラウドは、ビッグデータ分析サービスを共有します

2、アマゾンEC2とS3

アマゾンEMRは、Amazon弾性計算Cloud(Amazon EC2の)技術とAmazonのシンプルなストレージサービス(アマゾンS3)ビッグデータ分析インフラサービスにおけるテクノロジーのWebベースの規模です。AWSの他のWebサービスとアマゾンEMRサービスは、高集積化を実現しています。アマゾンS3は、バルクストレージの入出力データについて、仮想マスタとスレーブノードとアマゾンEC2インスタンスのLinuxサーバを使用して、アマゾンEMR Hadoopクラスタ上で実行され、監視およびアラームのAmazon CloudWatchのクラスタ性能あなたは外に移動するとAmazon DynamoDBのからの移行データにアマゾンEMRとハイブを使用することができます。すべてのこれらの操作のHadoopクラスタのコーディネーション手配を開始するとAmazon EMRソフトウェア管理制御による。もちろん、これらのWebサービスの統合は、ほとんど使用は別料金が必要です。EMRが見る現在の価格から、基本的に時間の計算に合わせて公式サイトに問い合わせることができる特定の価格のコストを計算します。

3、新しいビッグデータサービス

2012年には、AWSは(EMRは、データを分析することができ、オンラインでのHadoopエンジンである)の削減以前にリリースされたサービス弾性地図を補完するために、2つの新しいビッグデータサービスを開始しました。DyamoDBと呼ばれるサービス、それがアマゾンで管理されるソリッド・ステート・ドライブのNoSQLデータベースでは、スケーラビリティとフォールトトレランス度が高いです。2007年以来、Amazonはオンプレミス、それはアマゾンの消費者のウェブサイトを最適化することができます。サービスの赤方偏移は、オンラインデータウェアハウスである、があります。赤方偏移は、最もよく知られているのは、そのシンプルなストレージサービス(S3)で、他のデータストレージ製品アマゾンと組み合わされます。今年初め、Amazonはまた、長期的な低コストのストレージオプションとして氷河を開始しました。

四、Facebookの

Facebookはデータの量は、それが非常に大きいがあるため、2011年には情報表示、それが圧縮されたデータは25PB、非圧縮データ150PB、日々生成された圧縮されていない新しいデータを持って、それらのビッグデータ技術アプリケーションの最も活躍しています400TB。Facebook上で、ビッグデータ技術が広く、広告でニュースソース、ニュース/チャット、検索、サイトのセキュリティ、特定の分析とレポート作成のすべての領域を使用しています。FacebookはApacheのオープンソースビッグデータ・プロジェクトへの最大の貢献者の一つです。Facebookが正式にハイブ、ZooKeeperの、スクライブ、カサンドラ、有名なApacheの財団に他のオープンソースのツールへの貢献と一緒に、2007年のHadoopコンピューティングフレームワークになっている、オープンソースのプロセスは、現在も積極的にFacebookを利用して推進しています。Facebookのビッグデータ技術アーキテクチャは、進化の三つの段階を経ています。

1、Facebookの初期のビッグデータ技術アーキテクチャ

Facebookの初期のビッグデータ技術アーキテクチャは、オープンソースツールの基盤Hadoopの、HBaseの、ハイブ、スクライブと上のように構築されています。HTTPサーバからログデータストリームを生成する、時間、次いでステージコピー/ローダー(すなわち、NFSスクライブログ収集システムは、秒単位で時間がかかり、共有メモリ・ファイル・システムに転送されます

http://s15.sinaimg.cn/mw690/001mKEk5ty6DD9hxEXI3e&690  のHadoopにデータファイルをアップロードするのMapReduceジョブ)。SQLに似た言語発達ハイブに基づいている抽象データ日課組立ラインの生産、結果はOLTPツールでレポートを生成するためにMySQLサーバの前面に定期的に更新されます。Hadoopクラスタノードが3000は、問題の拡張性と耐障害性が良い解決策になることができていますが、主な問題は、最終報告書を取得するために、1〜2日ログから大発生した早期治療の遅れの全体的なシステムです。

2、Facebookの現在のビッグデータ技術アーキテクチャ

Facebookの大きなデータ現在の技術アーキテクチャはスクライブ、HDFSとHBaseのストレージシステムを分散、分散ログ・システム、分散コンピューティングに分割され、示されるように、以前のアーキテクチャに基づいて最適化されたデータ伝送チャネルとデータ処理システムであります・解析システム(MapReduceの、プーマとハイブ)のように。

ここで、大きなログHTTPサーバからのデータを集約するためのScribeのログシステム。スリフトはC ++やJava、PHP、PythonとRubyの言語間のシームレスなサポートを実現するために、クロス言語サービス開発のためのFacebookが提供するソフトウェアフレームワークです。スリフトRPCは、ログデータ収集のためのログ収集サービスを呼び出すためにスクライブを使用しています。スクライブポリシーとトラフィックモデルは、ログ管理ノードであり、クライアントとスクライブスクライブHDFSへメタデータを送信し、収集されたデータはログスクライブHDFSに格納されています。

以前のシステムの最適化のデータパス上のFacebookは、ログ種の2500以上の種類をサポートして、10秒以内に終了遅延にデータピーク9ギガバイト/秒と終了を処理することができる、データフリーウェイと呼ばれます。データフリーウェイは、主に四つの成分、スクライブ、Calligraphus、連続コピーとPTailを含みます。データは倹約RPCを介して送信されるクライアントのためのスクライブ; Calligraphus中間層とデータ書き込みHDFSカーディング、それはログ管理の種類、補助飼育係の使用を提供し、連続コピーのコピーファイル別のHDFS HDFS 1つから。ディレクトリHDFSの複数の並列にPTailテール、および標準出力にファイルデータを書き込みます。現在のアーキテクチャでは、データ処理の一部は依然として中央HDFS、ハイブを介して毎日分析および処理に格納され、処理のMapReduce時間クラスでバッチモードで行われます。ほぼリアルタイムのデータの他の部分は、分プーマの順序で処理するストリーム。Facebookは専門的な分析のためのペレグリン(Hipal)ツールを提供し、循環的な分析は、分析のためNocronツールを提供しています。

3、Facebookの次のビッグデータ技術アーキテクチャ

Facebookの次のビッグデータ技術アーキテクチャのプロトタイプが出てきました。まず、オープンソースは、コロナのHadoopのMapReduceのシステムへの可能な代替案である、同様のYARNヤフーが上昇しました。コロナの最大の進歩の一つは、コロナは、非MapReduceジョブを処理することができ、両方のMapReduceジョブを処理することができますすることができますオンデマンドリソースのCPU、メモリ、および他のジョブの処理に基づいて管理を行うためのクラスタマネージャ、であるので、アプリケーションのHadoopクラスタの詳細広いです。第二に、ClouderaのインパラとスティンガーのHortonworksのようなFacebookの最新のインタラクティブなビッグデータクエリシステムプレストは、Facebookの膨大なデータウェアハウス、高速クエリのニーズの急速な拡大を解決するために。Facebookのによるとプレストシンプルを使用して完了することも非常に複雑なクエリが、また、わずか数分をわずか数百ミリ秒を照会し、言った、それはメモリ内で実行され、ディスクへの書き込みはありません。第三は、ワームホールであります

嵐とYahoo Twiitterストーム-YARNと同様のシステムを、コンピューティングの流れ。第四の重要な項目は、データセンター一顧時間外に大規模なグローバルデータセンターを実行する能力は、Hadoopクラスタをリンクすることができます、再配布することができる、リアルタイムデータプリズムであり、これはGoogleとスパナです同様のプロジェクト。

Facebookのビッグデータ技術アーキテクチャの進化パスはロードマップビッグデータ技術を表し、立派それは、オープンソースはいつものルートフェイスブック、ヤフー、それに他の企業であり、ビッグデータ技術の発展に大きな貢献をしたということです。

五、ツイッター

Twitterのリストする、再び世界の注目が、それはtwitteを作成しているインターネットは、マイクロ技術革新の時代に入ってください。それが中国に入るが、中国のインターネットではその新浪微博とテンセントWeiboに触発されませんでしたが、美しい風景となっています。Twitterのは、世界で巨大なユーザーベースを持って、その動作をサポートするための大規模な社会的な情報の流れもかなりビッグデータ技術インフラの懸念です。

Twitterのビッグデータアーキテクチャのオープンソースプロジェクトに基づいて、Hadoopのベースのストームバッチおよびリアルタイムの流量計算の主な種類に基づいて、主に開発と発展のために、分割されます。

1、バッチアーキテクチャ

Twitterのデータ収集は、Facebookのオープンソースのロギングツールスクライブ、バッチストアを使用して豚を使用した大規模なデータにHadoopのMapReduceの+、高速分析を使用してデータを分析します。豚のHadoopは豚ラテン、コンパイラ最適化された一連の処理にするSQL言語データ解析要求と呼ばれる高レベルデータ分析SQL言語のテキストを提供するパラレルレベルプログラミング言語に基づいて計算されたMapReduce操作。データ分析は、フィルタを組み合わせなど、サポートパケット豚に主に使用しました。

図2に示すように、フローコンピューティングアーキテクチャ

ストームは、Twitterのオープンソース・ストリームコンピューティングプラットフォームであり、ストームは、シンプルなAPIを介して確実に開発者は、データ、リアルタイムシステムの継続的な無限のストリームを処理言語のClojureとJavaを開発することができます。嵐は、このようなリアルタイム分析、オンライン機械学習、継続的なコンピューティングなどのシナリオ、たくさんのです。

3、NOSQLデータベース

Twitterは、開発の異なる段階におけるその役割を反映して、ストレージツールの多くを持っていますが、またさまざまなシナリオをしようとします。NOSQLデータベースは、少なくとも、HBaseの、カサンドラとFlockDBなどが含まれています。HBaseのバッチを分析し、データの生成・セットのために使用され、オンラインシステムのためのカサンドラで、ソーシャルグラフのリアルタイム配信を格納するための動的読み込み、FlockDBをサポートしています。

4、Mesosオペレーティングシステム

ビッグデータ2.0の時代には、Twitterのビッグデータ技術インフラストラクチャは常にオープンソース技術、包括的かつ進化のより多くのエッセンスを吸収しています。例えば、Mesosを分散ビッグデータ技術アーキテクチャのためのオペレーティングシステムのTwitter導入された、それはHadoopのようなコンピューティング、ストレージリソースのための合理的なスケジュールであり得ます。

Twitterのビッグデータ技術アーキテクチャ

5、Summingbird

ここでも、単にオープンソースSummingbird、プラットフォームの統合アーキテクチャを計算バッチおよびリアルタイムのストリームを実現するために、開発者は非常に近いSummingbirdのMapReduceジョブのネイティブスカラ座やJavaの実装に使用することができ、あなたはどちらかSummingbirdは、「バッチを実行する使用することができますまた、使用可能な2つのモードが混合しながら」、リアルタイム処理を「またやるためにそれを使用することができます」。やるライトワンスロジック、一度、すべての問題のために。Summingbirdさらなる作業アッカ、スパークとそのビッグデータ技術アーキテクチャシステムへのより多くのプラットフォームやツールへのTwitterを助長しているTEZと他のプラットフォームのサポートが含まれています。

Twitterのベースの強力なビッグデータ技術アーキテクチャは、それが大規模なデータ分析とサービスプロバイダへの移行を達成することである、Twitterのベースの解析ツール、アプリケーションやビジネスモデルAPPが増えて発掘された、データ分析業界のエコシステムは徐々に構築します、それは巨大な想像力をもたらします。私は人々がビッグデータ技術インフラプロジェクトのWeiboの秘密は、この方向に移動を楽しみに実施されなければならない期待だと思います。

公開された63元の記事 ウォン称賛52 ビュー40000 +

おすすめ

転載: blog.csdn.net/weixin_41521681/article/details/104266517