数据科学家访谈录——从天体物理到数据科学

从天体物理到数据科学

团队工程开发的经验
  • 公众对于科学有一种很“浪漫”的想法就是:你跳进一个课题里,然后在苦思冥想五个月之后,你会有一个“尤里卡”时刻,然后你搞定了这个问题。
  • 但是实际情况是:你的程序会有很多bug,你会犯下很多错误,并且你需要以团队的方式工作,这也就意味着你必须要能够高效的工作,你必须知道如何获取目前项目的分支加以编辑,你必须知道如何上传你修改好的代码,你必须知道如何写文档记录你做的一切东西,你必须要用文档来记录你遇到的一问题并且澄清你是如何解决他们的。你必须做上述的所有事情。
  • 在你应聘的时候,需要先想想你未来要做什么,以及你所做的东西能对别人能产生什么影响,你需要把自己加入对方公司的团队中,而不是把自己孤立起来。有时候,你努力融入团队的行动是会有很好的反馈效应的。你必须思考如何才能和周遭的一切有机会互动合作起来。你必须要思考你的代码如何才能被被人利用起来。
关于工业界和科学界
  • 科学上的所有东西都是针对一个想法被详细定义好演讲展示,那个展示用尽全力列出了所有你不能做的是事情。所有关于这个课题的交流沟通探讨研究,都被各种一经定义好的事实边界约束的死死的,或者说被尽最大的约束住了。
  • 在商业中,情况正好相反。你并不需要描述出所有的可能性,你只需要说重点就行了,然后直接从那里开始展示你的结果。你需要让自己的结果尽快出来,你用自己的结果获得别人的注意,然后就可以做下一步了。
  • 工业界中,你必须把自己去把所有东西都组织起来,做出令人信服的结果,最终你需要告诉别人为什么你的结果与某某相关,最重要的是,你必须要在5秒钟内说出这一切来。在业界你需要拿着自己的点子然后不断用问题去打磨它,你不是需要受CEO或者其他任何人的质询,而是需要质询你自己,然后不断用这些问题去坚定自己的主意。这背后需要一种默契般的信任。
  • 没有人会来检查你的工作,也没有人应该来检查你的工作。你是独立完成自己项目的人,并且你需要自己把项目分解出来,看出哪些重要哪些不重要。
  • 你必须要自己做出一个精炼的结论,这也正是你最要交付的东西。把自己的工作用最精炼的语言压缩下来,找到其中最重要的部分再去做演示,这实在是一个很有意思的挑战。把其中其他无关东西都扔掉,仅仅留下能发挥功能的部分。
对数据科学的理解
  • 它意味着你对数据进行计算的方式,能够有能力对数据进行解读,对数据进行建模,并且最重要的就是,有能力用数据的内在意义去与别人沟通交流。
  • 数据科学大概可以分为两个版块——描述分析和预测分析。描述分析就是“我们看到了这个趋势”,它总是在观察数据的动态变化,并且询问发生了什么。用那些已经被生产出来的数据,把它们掐头去尾做好整理,进而用它们做出有用的决定,这就是描述分析的作用。
  • 预测分析可不仅仅是需要你把数据进行处理,而是要用它们来做预测器。数据科学这个领域存在的意义就是让决策的行为变得更加理性、严谨;能够让人们看到着一些不是那么纯粹出自直觉,并且能用来支撑自己的观点和立场的结论。这样的论据可以为你的公司的生意带来更多的稳定性。
  • 在你想要给你的决策增加一些权重和价值的时候,数据科学家就是比想要招聘的人。数据科学并不能让你的商业马上开始腾飞,选择了数据科学并不是意味着你买了一份保险,但是至少他可以为你的一些除了依赖感觉做决定的其他选择。
卓越和优秀的区别
  • 两者都知道很多的统计知识,他们的技术差不多,并且也知道如何去设计实验,实现代码和完成实验。但最重要的事情是,你必须要有能力去将你做的东西讲出来给别人听。这个过程可比看起来难多了。
  • 如果说你的编程能力已经够好的了,你还需要进步的下一步就是沟通交流。人们需要去感知你心里的那种澎湃激情。那种激情正是各个领域都很成功的人所共有的品质。
  • 很多人闭门造车独自做研究,然后跳出来公开他们的发现。但是实际上,这本应该是一个更为连续的过程,整个过程应该更为流畅而公开,而不仅仅是隐遁多年后回归人间,然后拿出一连串自己的成果。所以最核心的观点就是沟通交流,但是这个最简单的部分却被很多人忽略了。
给年轻人的建议
  • 在那时我加入了一个开源项目,这是我整个研究生涯中做的最正确的一件事情。我在那里学会了如何用一种写作的方式写代码。
  • 每一周,对自己上一周的成果做一个演示汇报。这件事能很好的锻炼你的沟通交流能力。
  • 提高自己的编程能力
  • 80%的产出都来自20%的努力,真正困难的是搞清楚到底哪些东西带来那80%的生产力。一旦你确信自己知道了那80%的工作,就可以停下来了,剩下的不重要。
如何找到开源项目并参与其中
  • 花费大量时间寻找,因为他们已经存在了,只是需要找出来而已。最大的问题是,不要觉害羞,也不要被吓退。如果这些项目的进度没有达到你的预期,就直接加入进去。这绝对是一个很值当的买卖。其实很难说服研究生们去做这样的事情,因为他们早就已经被大量的事情压得不堪重负,但是这绝对是我读研那五年做过的最重要的事情。
  • 参与开源项目最直接的好处是你会变得越来越好,间接的好处是很多人会因为你的工作而受益,你会收到很好的反馈
  • 很可惜的一点是当今科研界的“主要货币”是引用,而不是源代码,即使是到了今天这种需要许多技术支撑的时候也是如此。我认为这种情况将会慢慢改变,因为所有的事情都是基于团队来完成的。想要更为高效地做科研,也必须要以团队的形式来,这是唯一的方法。

猜你喜欢

转载自blog.csdn.net/jasonzhoujx/article/details/81808197