数据工程之为什么学习

为什么要学习数据工程?

> 研一上的学习还是处在上课的阶段,没有什么实际操作的项目.因此,想搞个数学建模或者阿里天池大叔据竞赛来玩玩.经过一些调研后,发现无论是建模,还是阿里竞赛,对大规模数据的处理,一直都在比赛试题中频繁出现.联系到当下人工智能的火热离不开大规模数据的支撑,因此决定搞搞数据方面的事儿.

怎么去学习数据工程?

> 第一次听说数据工程这个名词是在阿里天池的"全栈数据工程师养成攻略上".我的理解是,把数据做为一个研究对象,用工程的方法去管理好这个对象.(link
  本科的时候搞过智能车,当时做的电磁组.处理的数据主要是动态的少量数据,例如6个经过A/D转换得到的表征磁场强度的电压值,1个编码器反馈的脉冲数.基本处理方法就是分配时间片,进行采集,存储,(参与运算后)更新.
  以阿里天池的工业蒸汽量预测为例(link),其中包含了38个特征的信息.还没有看过别人处理这些数据的方法,我先想到的是PCA降维.然而在对数据进行算法操作前,是否要清洗下数据,去掉些脏数据?处理过后的数据怎么存储?要是有多个数据处理的版本该怎么管理?
  当下Python语言非常流行.它的其中一个优势是有着很多处理数据的库,例如pandas就可以用来很好的清晰数据.因此,凭借一边学习python,一边完善数据工程的技能学习,开始尝试管理大规模数据.

ps:个人探索向博文,若有专业错误亦或言辞不妥处,还请不吝指正,共同学习.

猜你喜欢

转载自blog.csdn.net/weixin_43881184/article/details/84822649