亚马逊EMR 熟悉 - 代码天地

亚马逊EMR 熟悉

其他 2018-08-28 05:59:58 阅读次数: 0

Amazon EMR 是一个托管集群平台，可简化在AWS上运行大数据框架（Hadoop 和spark）以处理和分析海量数据的操作。借助相关的开源项目（Hive和Pig），处理数据和商业只能工作负载。还可以使用EMR转换大量数据和将大量数据移入和移出其他AWS数据存储和数据库如S3和DynamoDB。

集群(cluster) ，一组EC2实例的集合，每一个节点都有不同的角色即节点类型

主节点;管理集群以实现处理作业，协调数据和任务在其他从属节点的分配，跟踪监控状态。

核心节点：运行任务，存储数据

任务节点：只运行人物，不存储数据，可选

向集群提交工作时需要：完整定义mapreduce中的工作、创建集群、安装hadoop软件、连接集群并提交任务

存储： HDFS、EMRFS（直接访问S3内的数据）本地文件系统

集群资源管理：YARN

数据处理框架： Hadoop mapredcue 以及spark

应用程序：Hive、Pig、spark streaming 等

入门实例利用EMR分析大数据

1 创建S3存储桶，设置输入数据和输出数据

2启动集群cluster 设置包括：预先安装程序模板实例类型个数权限等

3准备数据和脚本存放到s3中

4 在setp中设置数据和脚本的存储位置，加载setp进行数据处理

猜你喜欢

转载自blog.csdn.net/weixin_40988315/article/details/81974296

亚马逊EMR 熟悉

亚马逊aws emr hadoop集群调度工具azkaban安装

使用Apache Flink在亚马逊云科技Amazon EMR上构建统一数据湖

mysql熟悉

Kubenates熟悉

熟悉kafka

熟悉Jenkins

熟悉Linux

熟悉TCP/IP，到底要熟悉什么？

阿里EMR

EMR问题

熟悉HBase基本操作

熟悉常用的HDFS

熟悉的HDFS操作

熟悉常用的HDFS操作

熟悉常用的HBase操作

go reflect 初步熟悉

熟悉VBA的编程环境

目前正在熟悉的项目

先熟悉下环境

HashMap用法熟悉

熟悉业务（一）

熟悉排序算法

熟悉项目阶段

linux 熟悉过的命令

熟悉语句、背诵语句

学习熟悉snmp协议

熟悉 Numpy 数值类型

熟悉了下HTTP协议

Android: 熟悉又陌生的Context

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)