很多初学者，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：199427210，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系

大数据现在很火很热，但是怎么学习呢？下面我就给大家介绍一下：

大数据的方向有大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。

大数据的4大特征：

1.数据在体量方面很大，比如说文字，有各种各样的来源，有电子书|实体书|杂志|报刊等，它们的数据大吧。

2.数据的类型多种多样，有些是结构化的数据，像存在Oracle,MySQL这些传统的数据库里的数据，一般都是结构化，可以是还有非结构化，比如HTML,WORD，execl等格式。

3.它们的价值密度低，这样说吧，你比如说观看一条数据好像价值也不大，但是分析所有的数据之后呢？总会挖掘出一些重要的东西。

4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架，相比传统的数据库处理速度要快，它的吞吐量特别的大，再比如Spark，Spark在内存方面计算比Hadoop快100倍，在磁盘方面计算快10倍。

大数据的技术：

Hadoop生态圈：Hadoop HDFS文件系统 MR计算模型、Hive数据仓库、HBase数据库、Flume日志收集、Kafka消息系统

对于刚刚接触大数据的人大数据工程师怎样养成让我来详细告诉你

Spark生态圈：Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX

对于刚刚接触大数据的人大数据工程师怎样养成让我来详细告诉你

Storm流式计算
分布式协调服务：Zookeeper
NOSQL数据库：Redis、MongoDB
还有RabbitMQ、Impala、Flink、Kylin
机器学习：Mahout
……

这么多技术这么学习呢？

先学Hadoop

Hadoop框架中由两大模块组成，一个HDFS(Hadoop Distributed File System)，是用来存储需要处理的数据，另外一个是MapReduce，是Hadoop的处理数据的计算模型。
学习一门数据库，像MySQL 学点SQL

Hive

只要你会SQL，你就会使用它。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，

可以将sql语句转换为MapReduce任务进行运行。

HBase

HBase即Hadoop DataBase，Hadoop的数据库，HBase是一种 "NoSQL" 数据库,即不是RDBMS ，不支持SQL作为主要访问手段。

Sqoop

Sqoop是迁移数据工具，可以在很多数据库之间来迁移，

Flume

Flume是一个分布式的海量日志采集和传输框架，一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Kafka

使用Kafka完成数据的一次收集，多次消费。它是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统。

Spark基于内存计算的框架

Spark Core最为重要
SparkSQL
Spark Streaming
图计算
机器学习

Storm实时的流计算框架

机器学习Mahout

主要学习算法

我想告诉你，每一份坚持都是成功的累积，只要相信自己，总会遇到惊喜；我想告诉你，每一种活都有各自的轨迹，记得肯定自己，不要轻言放弃；我想告诉你，每一个清晨都是希望的伊始，记得鼓励自己，展现自信的魅力。

建议

没有基础的人可以去培训一下，速成

如果你有很多时间，可以直接研究

如果你是牛人，需要你指导一下我。

一名6年大数据工程师的工作感悟，写给还在迷茫中的朋友

大数据现在很火很热，但是怎么学习呢？下面我就给大家介绍一下：

这么多技术这么学习呢？

建议

猜你喜欢