A 大数据工程师是做什么的?
用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群"玩数据"的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此"会玩"这些数据的人就很重要。
分析历史、预测未来、优化选择,这是大数据工程师在"玩数据"时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
B 需要具备的能力
数学及统计学相关的背景
就采访过的BAT三家互联网大公司来说,对于大数据工程师的要求都是希望有统计学和数学背景的硕士或博士学历。缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(DangerZone)-一堆数字,按照不同的数据模型和算法总能捯饬出一些结果来,但如果你不知道那代表什么,就不是真正有意义的结果,并且那样的结果还容易误导你。
计算机编码能力
实际开发能力和大规模的数据处理能力是作为大数据工程师的必备要素。举例来说,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉计算机处理大数据的方式。
C如何进行入门级学习
虽然数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法都可以来对付数据。但从狭义上来看,数据科学就是解决三个问题:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
这也就是做数据工作的三个大步骤:
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;
2、数据"长什么样",有什么特点和规律;
3、按照需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。
这三个步骤未必严谨,每个大步骤下面可能根据问题的不同也会有不同的小步骤,但按照这个大思路走,数据一般不会做跑偏。
到最后给大家推荐一个大数据学习群:774--666--256 里面有大数据小白视频教程,入门教程欢迎大家加入讨论