-
什么是大数据
大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。
大数据的主要特点为:
-
数据量大(Volume)
-
数据类别复杂(Variety)
-
数据处理速度快(Velocity)
-
和数据真实性高(Veracity)
合起来被称为4V。
还有的将大数据特点定义为6V模型,即增加了Valence(连接)、Value(价值)2V。
大数据常见概念分类
大数据相关的概念大家都听过不少:HDFS、MapReduce、Spark、Storm、Spark Streaming、Hive、Hbase、Flume、Logstash、Kafka、Flink、Druid、ES等等。
是否感觉眼花缭乱?
下面我们将这些常见的概念进行分组。
同一组的框架(工具)可以完成相同的工作,但各自使用的场景有所差异。
01
计算框架
离线计算:Hadoop MapReduce、Spark
实时计算:Storm、Spark Streaming、Flink
02
存储框架
文件存储:Hadoop HDFS、Tachyon、KFS
NOSQL数据库:HBase、MongoDB、Redis
全文检索:ES、Solr
03
资源管理
YARN、Mesos
04
日志收集
Flume、Logstash
05
消息系统
Kafka、StormMQ、ZeroMQ、RabbitMQ
06
查询分析
Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid
-
大数据概述(一)
猜你喜欢
转载自www.cnblogs.com/zuozhesang/p/11537909.html
今日推荐
周排行