有名メーカーは、ビッグデータプラットフォーム&アーキテクチャーを構築する方法

今日は、さらにまた、メーカーの技術者が組成物をイーゼル方法を学ぶ一方で、巨大なビッグデータ・プラットフォーム・アーキテクチャを研究する一方で、淘宝網、米国のグループとビッグデータプラットフォームの作品を見てください。これらのアーキテクチャ図のメーカーを通じて、あなたが見つけることができるルーチンがあるだけでなく、絵の類似した、アーキテクチャ図のこれらの有名メーカーのビッグデータプラットフォームの設計ができます。

淘宝網のビッグデータプラットフォーム

淘宝網は、中国のインターネット業界は、以前の下に、自分のビッグデータプラットフォーム会社を設立することができる、より一般的な、淘宝網の早期Hadoopのビッグデータプラットフォームです。

淘宝大きなデータ・プラットフォームベースが3分割され、上部には、データソースとデータ同期である淘宝Hadoopの大きなデータクラスタである中間ラダー1;以下は、大きなデータクラスタの計算結果を用いて、大規模なデータの適用です。

オラクルとMySQLデータベースのバックアップからメインソースデータとゲートウェイサーバを介してHadoopクラスタデータの同期中にシステムとクローラシステム、これらのデータを記録。どのDataExchangeの非リアルタイムのフルボリューム、データベースのデータ同期、DBsyncをリアルタイムで同期データベースの増分データ、データログと爬虫類のTimeTunnelリアルタイムの同期。すべてのデータはHDFSに書き込まれます。

スカイネットでタスクを計算する際にHadoopのスケジューリングシステム、優先度、ジョブのスケジュールおよびクラスタリソースとジョブの実装に合わせて提出になります。計算結果は、HDFSに書き込まれ、その後、DataExchangeの後にMySQLとOracleのデータベースに同期されます。データキューブのプラットフォームの下には、推薦システムは、ユーザがリアルタイム動作要求に応答することができ、データベースからデータを読み込みます。

Hadoopクラスタ上のタスクに提出し、地図の左側に位置するコア淘宝網ビッグデータプラットフォームスカイネットスケジューリングシステムアーキテクチャは、ときHadoopクラスタ上で実行するためにスケジュールシーケンシャル優先度が、実行をスケジュールするためにタスクを定義されている必要がありデータベースは、ログ、クローラーシステムは、実行結果のHadoopエクスポート・データベースのアプリケーションシステムが実行のためにスケジュール必要があるときに、実行のためのスケジュールされたデータをインポートする必要があります。私たちは、全体のビッグデータプラットフォームが統一計画とスケジューリング手配スカイネットシステムの下で動作させることであると言うことができます。

DataExchangeのデータ同期コンポーネント淘宝網は、社内で開発されDBsyncを、TimeTunnelは、あなたは、さまざまなデータソースと同期の要件については、データをインポートおよびエクスポートすることができます。これらのコンポーネントは、淘宝網のほとんどは、我々が使用して参照することができ、オープンソースとなっています。

米国のグループビッグデータプラットフォーム

美团大数据平台的数据源来自 MySQL 数据库和日志,数据库通过 Canal 获得 MySQL 的 binlog,输出给消息队列 Kafka,日志通过 Flume 也输出到 Kafka。

Kafka 的数据会被流式计算和批处理计算两个引擎分别消费。流处理使用 Storm 进行计算,结果输出到 HBase 或者数据库。批处理计算使用 Hive 进行分析计算,结果输出到查询系统和 BI(商业智能)平台。

数据分析师可以通过 BI 产品平台进行交互式的数据查询访问,也可以通过可视化的报表工具查看已经处理好的常用分析指标。公司高管也是通过这个平台上的天机系统查看公司主要业务指标和报表。

美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台,进行 ETL(数据提取、转换、装载)开发,提交任务作业并进行数据管理。

滴滴大数据平台

滴滴大数据平台分为实时计算平台(流式计算平台)和离线计算平台(批处理计算平台)两个部分。

实时计算平台架构如下。数据采集以后输出到 Kafka 消息队列,消费通道有两个,一个是数据 ETL,使用 Spark Streaming 或者 Flink 将数据进行清洗、转换、处理后记录到 HDFS 中,供后续批处理计算。另一个通道是 Druid,计算实时监控指标,将结果输出到报警系统和实时图表系统 DashBoard。

离线计算平台架构如下。滴滴的离线大数据平台是基于 Hadoo 2(HDFS、Yarn、MapReduce)和 Spark 以及 Hive 构建,在此基础上开发了自己的调度系统和开发系统。调度系统和前面其他系统一样,调度大数据作业的优先级和执行顺序。开发平台是一个可视化的 SQL 编辑器,可以方便地查询表结构、开发 SQL,并发布到大数据集群上。

此外,滴滴还对 HBase 重度使用,并对相关产品(HBase、Phoenix)做了一些自定义的开发,维护着一个和实时、离线两个大数据平台同级别的 HBase 平台,它的架构图如下。


更多大数据架构文章,请关注《大数据技术进阶》微信公众号

来自于实时计算平台和离线计算平台的计算结果被保存到 HBase 中,然后应用程序通过 Phoenix 访问 HBase。而 Phoenix 是一个构建在 HBase 上的 SQL 引擎,可以通过 SQL 方式访问 HBase 上的数据。

小结

你可以看到,这些知名大厂的大数据平台真的是大同小异,他们根据各自场景和技术栈的不同,虽然在大数据产品选型和架构细节上略有调整,但整体思路基本上都是一样的。

不过也正是这种大同小异,让我们从各个角度更加了解大数据平台架构,对大数据平台架构有了更加深刻的认知。

おすすめ

転載: www.cnblogs.com/xiaodf/p/11611970.html