大数据定义
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据核心特征
4V+XV
- 数据量大(Volume)
- 类型繁多(Variety)
- 价值密度低(Value)
- 速度快时效高(Velocity)
- 可变性(Variability)
- 真实性(Veracity)
Hadoop定义
- 一个开源项目
- 一个分布式文件系统
- 一个分布式计算平台
- 一个Map/Reduce框架实现
Hadoop2.X 主要部分组成
- HDFS 分布式文件系统
- Yarn 资源分配系统
- MapReduce 分布式运算框架
- Hadoop Common 通用工具
Hadoop生态系统
- Hive - SQL / MR编辑器
- HBase - 列簇的分布式NoSQL
- Zookeeper - 分布式协同调度
- Avro - 接口序列化开发工具
- Flume / NG / Scribe - 数据流手机工具
- Sqoop - ETL工具
- Pig - Pig-Latin / MR编辑器
- Mahout - 基于MR的算法库