1、HDFS
为分布式存储
提供文件系统
针对存储大尺寸的文件进行优化,不需要对HDFS上的文件进行随机读写
直接使用文件
数据模型不灵活
使用文件系统和处理框架
优化一次写入,多次读取的方式
2、HBase
提供表状的面向列
的数据存储
针对表状数据的随机读写进行优化
使用key-vale
操作数据
提供灵活的数据模型
使用表状存储,支持MapReduce,依赖HDFS
优化了多次读,以及多次写
主要用来存储非结构化数据和半结构化的数据
3、MySQL
传统关系型数据库
注重关系
支持事务
4、Redis
分布式缓存
基于内存
,
强调缓存,
支持数据的持久化,
支持事务的操作,
NoSql类型的Key/value数据库
支持List、Set等丰富的类型
5、Hive
hive是基于Hadoop的数据仓库工具
可以将结构化数据文件映射为数据库表
并提供sql功能,可以将sql转化为mr任务运行
sql学习成本低,不必专门开发mr应用
十分适合数据仓库的统计分析