大数据概述(一)

什么是大数据

大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。

大数据的主要特点为:

  1. 数据量大(Volume)

  2. 数据类别复杂(Variety)

  3. 数据处理速度快(Velocity)

  4. 和数据真实性高(Veracity)

合起来被称为4V。

还有的将大数据特点定义为6V模型,即增加了Valence(连接)、Value(价值)2V。

大数据常见概念分类

大数据相关的概念大家都听过不少:HDFS、MapReduce、Spark、Storm、Spark Streaming、Hive、Hbase、Flume、Logstash、Kafka、Flink、Druid、ES等等。

是否感觉眼花缭乱?

下面我们将这些常见的概念进行分组。

同一组的框架(工具)可以完成相同的工作,但各自使用的场景有所差异。

01

计算框架

离线计算:Hadoop MapReduce、Spark

实时计算:Storm、Spark Streaming、Flink

02

存储框架

文件存储:Hadoop HDFS、Tachyon、KFS

NOSQL数据库:HBase、MongoDB、Redis

全文检索:ES、Solr

03

资源管理

YARN、Mesos

04

日志收集

Flume、Logstash

05

消息系统

Kafka、StormMQ、ZeroMQ、RabbitMQ

06

查询分析

Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

猜你喜欢

转载自www.cnblogs.com/zuozhesang/p/11537909.html