数据科学家访谈录——软件工匠学堂、软件工程及产品

软件工匠学堂、软件工程及产品

访谈人介绍

Kevin是Uber的数据科学家主管,他在那里领导一个小团队来收集和分析Uber遍布全球的商业网络中产生的各种数据,并用他们的结论来指导未来的产品开发以及提供更好的用户体验。

对数据科学家及其存在意义的理解
  • 对于任何人,只要他有黑客般的思考能力和足够的灵活性,他就一定能胜任一名数据科学家
  • 数据科学这领域大致包含两个概念,其中一个概念就是“大数据”,海量的数据经过处理分析被提取数学化的结论。另外一个相反的概念就是高度专业化的预测建模,因为人们有很多时候需要依据各种各样的数据来做决定的时候。你如何根据一个不完全的数据和另外一个做个类似事情的公司所拥有的数据来做一个针对未来的预测?这样的一类预测问题,就需要在编程、统计和数学直觉等方面有相当的积累。
对数据清理和数据分析的理解
  • 如果你的数据很大,很多的统计错误可以最终通过大量数据的综合分析而消减掉——这是大数定律。只要是任何符合正态分布的数据集,在海量数据面前,统计异常值都会快速消失掉。
  • 一直想法的是,如果你想要的预测模型是基于一批很小的数据,如果你没有足够前的数学知识来搞清楚小数据中的每一个细节,那么任何一个异常值都可能会导致你的模型最终失败。
  • 对于小数据来说,数据清理更重要的是用来评估一批数据的可信度:而在大数据中,他更重要的功能是将杂乱的原数据规整为一个更加简洁统一的数据集,并最终将其用在某个算法上。
  • 进行数据清理的操作现在已经非常容易了,其中的难点在于如何从非常大的数据中做出有用的结论。
数据科学家最重要的技能是什么
  • 我们付给数据科学家的工资,是希望他们可以建立分析流程,将数据导入算法,并且知道如何将特定的算法用于特定的环境。这些技能都需要数学和统计学方面的直觉。
  • 所以,如果拥有完备的数学和统计学知识,你就已经完成了这条路的85%了,剩下的15%主要就是一些基础的编程技能。统计学的背景和直觉对于你是非常有帮助的。数据科学毕竟不是学术界,你可以用你的知识非常快的做出各种结论。
  • 成为顶尖数据科学家的基础就在于对于重要性的清晰认识和搞清楚应该如何增加自己的武器库。
学术和工程的理解
  • 学术的限制在于,人们并没有足够的灵活性去向前一步,做出一些东西。在今天,学术基本是为了了解一个问题而存在的,而数据科学存在目的就是解决问题并且向前一步。
  • 真正吸引我的进入数据科学领域的,就是这种可以不停滞于问题,我可以一直做下去,做出解决方案,知道其他负责做决策的人员意识到我的这个解决方案的价值。这种感觉就像是在射击,先准备、在瞄准、然后开火射击,而不像学术界一样,大部分工作都是关于方法论的研究。
数据科学的前景
  • 我们正在处于数据科学第一波浪潮上,他与业界的连接正在前所未有的紧密连接起来。我们处于这样一个高速发展的阶段,但是数据科学80%的东西都还没有被探索出来。
  • 数据领域的领头羊公司,大多还只是集中在社交数据方面。这其实就类似于一个“我如何可以更快的给您一辆车?“这样的问题。所以从全局来看,数据科学所深入挖掘过的领域还不多,市场还非常广阔而且可以继续探索。
  • 在Uber,我们在解决物流方面的数学问题,但是人们也可以轻松用同样的解决方案去解决世界上的其他运筹学问题。例如,如果有人使用数据科学,让救护车更快的达到你的身边,这不是很好吗?所以如果往回想,在我们尝试解决的数据问题的征途中,已经出现了其他机会了。
  • 所以数据科学的前景还很好,只露出了冰山一角,这正是让我非常激动的一点。对于我来说,让数据科学尽量发挥其潜能的第一部工作,就是建立一个数据科学社区,然后允许人们在其中分享主意。
  • 没有什么建议是保证成功的。如果你能找到什么问题,就去解决它,或者你甚至可以为一些公众问题提出自己的解法,通过这样做你可以让大家都高兴。只要去解决问题就行了,开始用数据去分析现实世界,其他的东西慢慢都会来的。

猜你喜欢

转载自blog.csdn.net/jasonzhoujx/article/details/81807300