阿里云E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台 - 代码天地

阿里云E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台

其他 2019-11-07 23:17:30 阅读次数: 0

本文来自夏立的分享，花名雷飙，阿里巴巴计算平台EMR高级产品专家。
2014年开始接触大数据，历经阿里内部的大数据发展，目前在阿里云上负责开源的大数据平台EMR产品，构建云上的开源生态。

产品介绍

阿里云EMR的整体架构如下：

管理运维能力

集群管理，作业管理和调度
操作Web化、SDK&API

完全兼容开源系统，并在之基础上强化

Hadoop, Spark性能优化
监控能力能整合强化

伴随社区发展的生态

组件跟随开源社区保持版本升级
开源与阿里云平台的联结者，充分发挥云的生态能力
云产品对接（OSS，SLS，MaxCompute等）
云能力对接，弹性等等（本地盘实例严格打散，弹性伸缩能力，支持竞价实例）

全球部署（全球15个region部署）

基于企业级开源大数据生态上多样化场景方案的快速复制

提供完整的企业级的一体化平台

打包计算平台能力
开箱即用的体验

常见的组合使用方式：

file

大数据平台应用到的组件包括：

通用Hadoop

开源大数据离线、实时、Ad-hoc查询场景
基于开源Hadoop生态，采用YARN管理集群资源，提供Hive、Spark离线大规模分布式数据存储和计算， SparkStreaming、Flink、Storm流式数据计算，Presto、Impala交互式查询，Oozie、Pig等Hadoop生态圈的组件，支持OSS存储，支持Kerberos的数据认证与加密。

Kafka

开源高吞吐量，可扩展性的消息系统
E-MapReduce Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。

DataScience

大数据+AI场景
Data Science针对大数据+AI场景，提供了Hive、Spark离线大数据ETL，TensorFlow模型训练，用户可以选择CPU+GPU的异构计算框架，利用英伟达GPU对部分深度学习算法就行高性能计算。

Druid

实时交互式分析服务场景
Druid提供了大数据查询毫秒级延迟，支持多种数据摄入方式。可与E-MapReduce Hadoop、E-MapReduce Spark、阿里云OSS、阿里云RDS等服务搭配组合使用，构建灵活稳健的实时查询解决方案。

Zookeeper

分布式锁
适用于大规模的Hadoop集群、HBase集群、Kafka集群独立的分布式一致性锁服务。

产品功能点

可视化集群管理控制台

file
file

自带的调度系统

file

项目级别的权限管理
支持DAG
更好的弹性资源结合
方便的多种作业管理
完善的报警和监控

机器学习支持

深度学习、AI以成为目前炙手可热的词汇，EMR EMR Cluster Learning将深度学习和开源大数据技术深度结合，提供一体化的大数据+深度学习服务。利用一个集群，构建企业数据湖，同时进行机器学习和深度学习：

支持ECS GPU机型，通过Hadoop YARN调度集群GPU资源 Spark ML
TensorFlow Horvod • 支持TensorFlow ，Horvod等计算框架
可采用PS、MPI等数据通信模式
支持Docker，Standalone运行模式

file

声明：本号所有文章除特殊注明，都为原创，公众号读者拥有优先阅读权，未经作者本人允许不得转载，否则追究侵权责任。

关注我的公众号，后台回复【JAVAPDF】获取200页面试题！
5万人关注的大数据成神之路，不来了解一下吗？
5万人关注的大数据成神之路，真的不来了解一下吗？
5万人关注的大数据成神之路，确定真的不来了解一下吗？

欢迎您关注《大数据成神之路》

大数据技术与架构

猜你喜欢

转载自www.cnblogs.com/importbigdata/p/11816910.html

阿里云E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

快速掌握阿里云 E-MapReduce

阿里云 E-MapReduce产品优势及使用场景

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

阿里云 E-MapReduce 全面开启 Serverless 时代

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

大数据时代，如何快速构建高性能数据库平台

手动搭建Gateway连接阿里云E-MapReduce

阿里云开源大数据平台EMR全面升级性能最高可提升6倍

【Druid】（九）E-MapReduce Druid 集群集成 Superset（数据探查与可视化平台）

使用E-MapReduce提交Storm作业处理Kafka数据

高性能、高扩展、高稳定：解读 EasyMR 大数据组件自定义可扩展能力

阿里云如何构建高性能云原生容器网络？

最近阿里云正式发布弹性高性能计算产品

阿里大数据产品Dataphin上线公共云，将助力更多企业构建数据中台

阿里云大数据产品MaxCompute

大数据环境-云平台（阿里云）

淘宝网高性能可伸缩架构技术探秘

打造高性能的大数据分析平台

可扩展的mysql 高性能mysql笔记

【2023新书】快速Python：大数据集的高性能技术

基于Ambari构建自己的大数据平台产品

直播预约 | 在生产环境中，阿里云如何构建高性能云原生容器网络？

一分钟了解阿里云产品：高性能计算HPC

【转】在E-MapReduce中使用 ES-Hadoop

【Druid】（七）E-MapReduce 增强型 Druid 入门

在 E-MapReduce 上使用 Sqoop 工具与数据库无法同步数据网络连接失败

基于阿里云HBase产品的游戏大数据实践

阿里云大数据产品--Quick Audience（公测）发布

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)