数据科学如何助力科研?

640?wx_fmt=jpeg

硬件平台、软件环境和算法模型的一站式支持,可以让各学科的研究都能从数据科学的发展获益。

开放

今天是北得克萨斯大学(University of North Texas, UNT)科研信息技术服务中心(Research IT Services)的开放日(Open House)。

640?wx_fmt=jpeg

昨天丁老师告诉了我们这个消息。于是今天上午,我们实验室的几个小伙伴,就过来参观学习了。

在工作人员的带领下,我们参观了高性能计算机房。那里面真是壮观。

640?wx_fmt=jpeg

磁盘阵列都在高速运转。拉开抽屉,里面整整齐齐数十个6TB的硬盘。用户的数据可以同时在上面读取。

走近机架,CPU和GPU们制造的热风铺面而来;旁边就是冷却管线。从一排排服务器中间穿梭,真有冰火两重天的感受。

因为噪声很大,讲解人员不得不提高音量。他告诉我们,因为要保证冷却、供电等设施的持续正常运转,整个建筑的结构都是独特的。单单是买来设备之后做布线,就是一个十足的技术活儿。

10点钟,我们在535房间,听了科研信息技术服务中心4名工作人员联合做的报告。报告的内容,极大地改变了我对服务中心功能的印象。

原本以为,他们不过就是网络管理员。为学校里面的师生,提供基础设施。设置用户账号,预装软件,然后解决一些需要重启电脑之类的问题而已。就像英剧《IT》里面这帮家伙一样。

640?wx_fmt=jpeg

然而,Richard 用一个案例,说明了他的工作,令我感觉到了震撼。

案例

640?wx_fmt=jpeg

案例来自于一个研究生,叫做 Sheela ,学生物的。

她自己的 LinkedIn 页面,有不少内容没有更新。当初她给自己的预计,是 2017 年底毕业。

640?wx_fmt=jpeg

事实上,她不仅没有按照预期时间毕业,而且差点儿就没法毕业了。

她的研究方向是生育。希望对比4种不同的治疗方法,在不同条件下对生育的促进影响。

我是外行,不知道这里面数据采集究竟需要多高的成本。但是 Richard 告诉我们,很贵。

Sheela 用了好几年的时间,终于采集到了 104 个样本,每个样本包括 29 个特征变量。

然后,她就试图采用回归和方差分析(Analysis of variance,ANOVA)的手段,来构造模型。结果发现——一点儿显著关系都没有!这几年白干了。

欲哭无泪啊。

是不是就此放弃毕业呢?

Sheela 跑来服务中心,找到 Richard 所在的数据科学与分析(Data Science and Analysis)部门求援。

Richard 发现,由于数据量小,可能的相互作用和潜在模型数量却很多,因此传统方法不适合这个研究的数据分析。

而 Richard 的爱好,恰好就是玩儿各种新鲜的统计工具。

于是,他很快帮助 Sheela 设定了新的分析思路:基于决策树的监督学习+遗传算法,然后采用 BIC 做模型选择。

Sheela 一听就懵了:这说的都是什么?……

没错,这就是具体研究领域人员面临的现实问题——追踪本领域前沿,已经让他们投入了全部精力。他们没有余力,在研究方法和工具上时刻刷新自己的知识和技能。

但是, Richard 说,数据科学与分析(Data Science and Analysis)部门就是在这种情况下,体现自身价值的。

我们参观了 Richard 的办公室。里面就如同一座小型图书馆,摆满了各种书籍和资料。他平时乐此不疲地追踪数据科学进展,因此对于他来说,新的数据分析思路,其实无非对应着 3.5 个 R 软件包(其中有一个软件包,可视化模块独立,所以他认为算半个)而已。

不过,如果你拿普通的电脑试图做这种数据分析,依然是很困难的。 Richard 的电脑是一台配置不错的 Macbook Pro ,16GB的内存,6核CPU。但是为了帮 Sheela 跑这个分析,连续运转了25个小时,依然看不见尽头。

这时候,高性能计算设备的作用就来了。 Richard 旋即把任务扔到了服务器集群上面,同时使用超过200个核心……就是这样,依然跑了10多个小时,才完成。

出来的结果,让 Sheela 欣喜不已。这是 ROC 曲线图:

640?wx_fmt=jpeg

那 0.5 个软件包,还顺便把决策树的可视化做了。

640?wx_fmt=jpeg

在这张图里面,4种不同疗法,在不同的条件下,对应的效果差别,一目了然。

Sheela 不仅顺利毕业,而且还把论文发在了一份很好的期刊上面。

640?wx_fmt=jpeg

这是个皆大欢喜的结局。

功能

Richard 是这样描述部门使命的:

640?wx_fmt=jpeg

可以看到,数据科学与分析部门,从软件、硬件、算法和模型构造,全方位为有需要的师生提供支持。

不仅帮助学生搞定毕业论文,他们还和教授们合作,共同申请科研项目经费。

640?wx_fmt=jpeg

他们还利用教程的方式,把数据科学的基础知识与技能分享给大家。

这种分享,是超越学校范围的,每个人都可以获取。你可以访问这个链接(http://t.cn/ELReEg5),看看他们精心制作的 R 语言教程。

640?wx_fmt=jpeg

每一段教程里面,都不仅给出了完整的代码,可以拷贝粘贴直接用,而且还有详细的注释,甚至是附带数据的下载链接。

640?wx_fmt=jpeg

师生们可以根据自己的需求,找到相应的教程,直接应用到自己的研究问题和数据上面。

数据科学与分析部门还会经常提供培训讲座。例如明天,就会有利用服务集群做机器学习和深度学习的教学演示。我听了很兴奋。

640?wx_fmt=jpeg

Richard 的同事 Jon 介绍说,他们不仅有 R 语言教程,还有 SPSS 和 SAS,甚至是 Latex 的教程。这些教程会经常更新,并且不断补充新的应用场景。

640?wx_fmt=jpeg

我很兴奋地询问,有没有 Python 教程?

Jon 面露难色,告诉我说“不好意思,我们属于 R 阵营”。

小结

一上午的参观学习,让我们收获良多。令我们印象最深刻的,并不只是那些硬件基础设施,而是这种数据科学对科研的真正有效推动。

数据科学是专业领域,并非每个人都需要成为数据科学家。门槛的降低,可以让更多人应用数据科学提供的便捷工具,来推进自己的科研,尤其是其中的数据分析环节。

更可宝贵的,是这种一站式咨询与合作方式,不仅可以帮助有困难的师生解决燃眉之急,更有助于形成良性互动循环,使得科研项目做大做强。就像下图中展现的一样。

640?wx_fmt=jpeg

喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果你对 Python 与数据科学感兴趣,不妨阅读我的系列教程索引贴《如何高效入门数据科学?》,里面还有更多的有趣问题及解法。

由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。

知识星球入口在这里:

640?wx_fmt=png


发布了97 篇原创文章 · 获赞 272 · 访问量 23万+

猜你喜欢

转载自blog.csdn.net/nkwshuyi/article/details/84669995