大数据特点和基本处理流程
其他
2018-06-07 10:17:28
阅读次数: 2
1.大数据的4V特性
中文 |
英文 |
大量化 |
volume |
快速化 |
velocity |
多样化 |
variety |
价值化 |
value |
2.大数据的基本处理步骤
- 数据获取
flume
数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
- 数据清洗
mapreduce
清除不需要,错误,无效的数据
- 数据存储
hdfs
性能,可用,可靠,成本等方面考量
- 数据处理
hive
按业务需求处理
- 数据分享
sqoop,kettle
可视化展示,最大化利用数据价值
3.Hadoop
- apache旗下开源软件平台,广义是指Hadoop生态圈
- 利用分布式集群,根据具体业务,对海量数据进行分布式处理
- 核心组件包括COMMON,HDFS,YARN,MAPREDUCE
4.组件
组件名称 |
主要功能 |
HDFS |
分布式文件系统 |
MAPREDUCE |
分布式运算程序开发框架 |
HIVE |
基于文件系统和运算框架的SQL数据仓库工具 |
ZOOKEEPER |
分布式协调服务基础组件 |
HBASE |
分布式数据库OLTP |
Mahout |
基于分布式运算框架的机器学习算法库 |
Saoop |
数据的导入导出工具 |
Flume |
日志数据采集框架 |
5.分布式系统
- 划分成多个子系统或模块,各自运行在不同机器上,通过网络通信协作实现整体功能
- 操作系统,程序设计语言,编译系统,文件系统,数据库
6.ETL (数据仓库技术)
中文 |
英文 |
抽取 |
extract |
交互转换 |
transform |
加载 |
load |
7.BI
- 商业智能
- 将企业现有数据有效整合,快速准确提供报表提出决策依据,帮助作出业务决策
- 需求分析和功能实现依赖的技术组件
转载自blog.csdn.net/wxfghy/article/details/80404536