淘宝網&ディディ&米国ミッション|ビッグデータプラットフォームロードの進化

免責事項:記事へのこの参照は、上に公開ビッグデータプラットフォーム淘宝網/ビット/米国のグループに基づいて仕上げられます。そして、参照リンクは、テキストの末尾に与えられています。
3つの記事が違反が生じた場合、私に連絡して削除してください、同社の技術スタッフ無私の献身に感謝しました。私は、再編成、言語や内容に基づいて、読者の組成と包括的なビッグデータプラットフォームの開発を明らかにすることを目指しているという事実を尊重します。
本論文では、私の許可なしの場合は再現できないものと、そうでない場合は著作権の責任を追及。

ビッグデータ技術とアーキテクチャにより
シーン記述:私は、これは、これらの学生はビッグデータプラットフォームを構築している鼓舞する願っています。

キーワード:ビッグデータプラットフォーム

コンピューティングのためのビッグデータプラットフォーム、目的のためのプラットフォームとしてのストレージ、計算やショーで、今日の社会で生成されたデータの量を増やします。ビッグデータ技術は急速に様々なタイプのデータから価値ある情報を取得する機能です。超並列処理(MPP)データベース、データ・マイニング・グリッド、分散ファイルシステム、分散データベース、クラウド・コンピューティング・プラットフォーム、インターネット、およびスケーラブルなストレージシステムを含む大規模なデータのための適切な技術。
要約、ビジネス、データの成長の継続的な発展に伴いビッグデータプラットフォーム、データ、分析、データマイニングシーンと徐々に形成のための需要の増加。この記事では、誰にとってもビッグデータプラットフォームを構築する基本的な考え方を提供するために、低下し、美しさのグループ3つのインターネット企業ビッグデータプラットフォーム、淘宝網の開発プロセスを説明します。

淘宝

淘宝網は、中国のインターネット業界は、以前の下に、自分のビッグデータプラットフォーム会社を設立することができる、より一般的な、淘宝網の早期Hadoopのビッグデータプラットフォームです。

ファイル
ラダーデータウェアハウスのアーキテクチャ - 「ビッグデータプラットフォーム淘宝網の道」から描画

淘宝大きなデータ・プラットフォームベースが3分割され、上部には、データソースとデータ同期である淘宝Hadoopの大きなデータクラスタである中間ラダー1;以下は、大きなデータクラスタの計算結果を用いて、大規模なデータの適用です。

オラクルとMySQLデータベースのバックアップからメインソースデータとゲートウェイサーバを介してHadoopクラスタデータの同期中にシステムとクローラシステム、これらのデータを記録。どのDataExchangeの非リアルタイムのフルボリューム、データベースのデータ同期、DBsyncをリアルタイムで同期データベースの増分データ、データログと爬虫類のTimeTunnelリアルタイムの同期。すべてのデータはHDFSに書き込まれます。

ファイル
データ同期ツール - 「ビッグデータプラットフォーム淘宝網の道」から描画

スカイネットでタスクを計算する際にHadoopのスケジューリングシステム、優先度、ジョブのスケジュールおよびクラスタリソースとジョブの実装に合わせて提出になります。計算結果は、HDFSに書き込まれ、その後、DataExchangeの後にMySQLとOracleのデータベースに同期されます。データキューブのプラットフォームの下には、推薦システムは、ユーザがリアルタイム動作要求に応答することができ、データベースからデータを読み込みます。

Hadoopクラスタ上のタスクに提出し、地図の左側に位置するコア淘宝網ビッグデータプラットフォームスカイネットスケジューリングシステムアーキテクチャは、ときHadoopクラスタ上で実行するためにスケジュールシーケンシャル優先度が、実行をスケジュールするためにタスクを定義されている必要がありデータベースは、ログ、クローラーシステムは、実行結果のHadoopエクスポート・データベースのアプリケーションシステムが実行のためにスケジュール必要があるときに、実行のためのスケジュールされたデータをインポートする必要があります。私たちは、全体のビッグデータプラットフォームが統一計画とスケジューリング手配スカイネットシステムの下で動作させることであると言うことができます。

DataExchangeのデータ同期コンポーネント淘宝網は、社内で開発されDBsyncを、TimeTunnelは、あなたは、さまざまなデータソースと同期の要件については、データをインポートおよびエクスポートすることができます。これらのコンポーネントは、淘宝網のほとんどは、我々が使用して参照することができ、オープンソースとなっています。

ドロップス

おそらく3つの段階を経て現在までに、最初は自作の小さなクラスターのビジネス面であり、SQLの第三段階;第二段階は大きな集中型のクラスタ・プラットフォームです。
ファイル
「ビッグデータプラットフォームロードと作品の進化」から派生図

次のようにオフラインコンピューティング・プラットフォーム・アーキテクチャ。オフラインビッグデータプラットフォームはHadoo 2(HDFS、糸、MapReduceの)とスパークとハイブの建物に基づいていますドロップス、これに基づいて、独自のスケジューリングシステムと開発システムを開発しました。スケジューリングシステムとフロント、大規模なデータ・スケジューリングとジョブの実行優先順位などの他のシステム。開発プラットフォームは、ビジュアルSQLエディタで、簡単に、テーブル構造を確認するSQLを開発し、ビッグデータクラスタに投稿することができます。

ファイル
「ビッグデータプラットフォームロードと作品の進化」から派生図

また、また、激しい落下HBaseの使用、および関連製品(HBaseの、フェニックスは)いくつかのカスタム開発を行う、リアルタイムを維持するために、HBaseのプラットフォームのレベルを持つ2つの大規模なオフラインのデータプラットフォームは、そのアーキテクチャを以下に示します。

ファイル
「ビッグデータプラットフォームロードと作品の進化」から派生図

リアルタイムコンピューティングプラットフォームとオフラインのコンピューティングプラットフォームからの結果は、HBaseのに保存され、その後、フェニックスでのHBaseにアクセスするためのアプリケーションです。フェニックスは、SQL経由のHBaseの途中でデータにアクセスすることができ、HBaseの上のビルドのSQLエンジンです。

以下に示すように、リアルタイム・コンピューティング・プラットフォームを構築するための事業開発および経営側ストリームコンピューティングタスク、および作品の最大の利便性のために。エンジンStreamSQL IDE、警報監視、診断システム、親族、タスク管理及び制御機能に基づいて、流量計算に設けられました。
ファイル
「ビッグデータプラットフォームロードと作品の進化」から派生図

美团

当社のアーキテクチャ角度データストリーム、全体の米国のミッションデータプラットフォームアーキテクチャであるビッグデータプラットフォームのデータソースのMySQLデータベースからと運河経由のMySQLバイナリログを取得するためにデータベースをログ、メッセージキューカフカへの出力、ログは水路でカフカへ出力されますが、また戻ってODPSへ。

ファイル
由来図「米国のグループビッグデータプラットフォームを提供します。」

カフカは、データのフローが計算される計算とバッチ2つのエンジンのそれぞれの消費。計算された結果を用いて、嵐ストリーム処理は、データベースまたはHBaseのに出力されます。ハイブ分析と計算結果を用いて算出したバッチは、クエリシステムとBI(ビジネスインテリジェンス)プラットフォームに出力されます。

データアナリストが対話的にBIの製品プラットフォームを介してデータへのアクセスを照会することができます、あなたはまた、一般的にレポートツールを使用し、視覚的分析指標でうまく処理されている表示できます。同社幹部はまた、このプラットフォーム上で秘密のシステムにより、同社の主要なビジネス指標とレポートを参照してください。

ファイル

この図は、糸、HDFS、HiveMeta含む下の3つの基本的なサービス、展開アーキテクチャ図のオフラインデータプラットフォームです。異なるコンピューティングシナリオが異なるコンピューティング・エンジンのサポートを提供します。新会社である場合は、実際には、いくつかのアーキテクチャの選択があります。クラウド表HBaseの自分のパッキンを行います。私たちは、スパークと学習データウェアハウス、データマイニングや機械を構築するためにハイブを使用して、アドホックでのプレスト・サポート・クエリは、また、複雑なSQLを記述することがあります。糸に展開プレストの間には対応関係がありませんが、糸は、スパークが糸上で実行されていると同期しています。ハイブは、MapReduceのが現在の行にTEZのテストと展開にハイブを試しに現在依存しています。

また、当社は、リアルタイムの建設における位置の数は、米国のグループが嵐を使用する際に発生した問題の一部を解決することができFLINK、FLINKのAPI、フォールトトレランスと状態の永続性メカニズムに元の嵐から移行していることを学びました。FLINKは、一般的な開発シナリオをカバーし、一般的に使用されるSQL文の多数をサポートしていないだけ。FLINKの表とTableSchema、豊富なデータ型とデータ構造、およびデータソースのサポートによって管理することができます。これは、簡単にすることができ、既存のメタデータ管理システムまたはシステム構成管理が結合します。

スケジューリングプラットフォームによって管理プロセス全体ビッグデータ管理プラットフォーム米国のグループ。開発者は、開発するために、データアクセスビッグデータプラットフォーム、ETL(抽出、変換、ロード)を使用するジョブタスクおよびデータ管理を提出するための内部開発プラットフォーム。

参考リンクと著者:
魏以下のJava
https://www.jianshu.com/p/58869272944b

淘宝網のビッグデータ・パス
http://www.raincent.com/content-85-7736-1.html

ビッグデータコンピューティングプラットフォームの移行パスの作品
https://blog.csdn.net/yulidrff/article/details/85680731

米国のグループビッグデータプラットフォーム
https://blog.csdn.net/love284969214/article/details/83652012

ビッグデータ技術とアーキテクチャ
私の社会的関心のスキャンコード番号へようこそ、返信] [JAVAPDFは200秋のトリックインタビューの質問を取得することができます!

おすすめ

転載: www.cnblogs.com/importbigdata/p/11517061.html