一名6年大数据工程师的工作感悟,写给还在迷茫中的朋友

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
 

大数据现在很火很热,但是怎么学习呢?下面我就给大家介绍一下:

大数据的方向有 大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。

大数据的4大特征:

1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。

2.数据的类型多种多样,有些是结构化的数据,像存在Oracle,MySQL这些传统的数据库里的数据,一般都是结构化,可以是还有非结构化,比如HTML,WORD,execl等格式。

3.它们的价值密度低,这样说吧,你比如说观看一条数据好像价值也不大,但是分析所有的数据之后呢?总会挖掘出一些 重要的东西。

4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架,相比传统的数据库处理速度要快,它的吞吐量 特别的大,再比如Spark,Spark在内存方面计算比Hadoop快100倍,在磁盘方面计算快10倍。

大数据的技术:

  • Hadoop生态圈:Hadoop HDFS文件系统 MR计算模型、Hive数据仓库、HBase数据库、Flume日志收集、Kafka消息系统

对于刚刚接触大数据的人 大数据工程师怎样养成 让我来详细告诉你

  • Spark生态圈:Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX

对于刚刚接触大数据的人 大数据工程师怎样养成 让我来详细告诉你

  • Storm流式计算

  • 分布式协调服务:Zookeeper

  • NOSQL数据库:Redis、MongoDB

  • 还有RabbitMQ、Impala、Flink、Kylin

  • 机器学习:Mahout

  • ……

这么多技术这么学习呢?

先学Hadoop

Hadoop框架中由两大模块组成,一个HDFS(Hadoop Distributed File System),是用来存储需要处理的数据,另外一个是MapReduce,是Hadoop的处理数据的计算模型。
学习一门数据库,像MySQL 学点SQL

Hive

只要你会SQL,你就会使用它。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,

可以将sql语句转换为MapReduce任务进行运行。

HBase

HBase即Hadoop DataBase,Hadoop的数据库,HBase是一种 "NoSQL" 数据库,即不是RDBMS ,不支持SQL作为主要访问手段。

Sqoop

Sqoop是迁移数据工具,可以在很多数据库之间来迁移,

Flume

Flume是一个分布式的海量日志采集和传输框架,一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Kafka

使用Kafka完成数据的一次收集,多次消费。它是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统。

Spark基于内存计算的框架

  • Spark Core最为重要

  • SparkSQL

  • Spark Streaming

  • 图计算

  • 机器学习

Storm实时的流计算框架

机器学习Mahout

主要学习算法

我想告诉你,每一份坚持都是成功的累积,只要相信自己,总会遇到惊喜;我想告诉你,每一种活都有各自的轨迹,记得肯定自己,不要轻言放弃;我想告诉你,每一个清晨都是希望的伊始,记得鼓励自己,展现自信的魅力。
 

建议

没有基础的人可以去培训一下,速成

如果你有很多时间,可以直接研究

如果你是牛人,需要你指导一下我。

猜你喜欢

转载自blog.csdn.net/qq_43958467/article/details/88375979