大数据研究员:数据科学很大,在你身边很小

作为下一代革命性技术人工智能的重要依托技术,国内的大数据行业在全球走在了前列。

(图片来源:全景视觉)

经济观察网 记者 饶贤君 21世纪什么最贵?葛优在《天下无贼》里告诉我们,答案是人才,但他没想到的是,短短八年后的2012年,奥巴马向全世界宣布,数据才是新时代下最有价值的存在,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产,“数据是未来的新石油”。

互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入

与不可再生的石油不同,海量的数据仍在每天以惊人的速率增长,而在之江实验室网络空间大搜索研究中心研究员安静斌看来,在可见的未来,数据将继续以指数型的趋势实现爆炸式的增长,“我们以后会有量子计算、有5G、6G的信息基础设施、有各种各样的可穿戴设施和物联网,这些都是可以看到的未来,它们所带来的庞大数据量是现在远远不能比的。”

如何从海量且依旧在爆炸增长的数据中,挖掘出更多能够转化为实际效益的“黄金”,这实际上就是人们口中的“大数据”、安静斌所称的“数据科学”所希望探索的重要课题,而对于普通人而言,这些经过分析、转化之后的数据信息,最终如同逐渐汇聚的涓涓细流,潜移默化中影响我们生活的方方面面。

联通孤岛

“数据科学的诞生,实际上是数据量暴增的必然结果,也就是我们所说的量变产生质变,而随着大数据时代的到来,除了海量性之外,数据也产生了新的特性,包括多元性、易构性、稀疏性。”从一个计算机专业毕业的博士开始,经历了从数据库时期到大数据时代的转变,安静斌与数据打了20余年的交道,他深刻感知着这些变化的轨迹。

安静斌回忆,在信息化时代的初期,数据其实十分简单,政府部门、企业部门对内部员工的信息登记和管理,构成了最早的数据,“简单来说,就是把员工的姓名、身份证号码、联系方式这些数据,和建档案一样,以文件的形式一个个保存起来,但是没有相应的工具,检索起来很麻烦,需要一个一个打开去查找。”

其后,伴随着互联网的普及,数据量开始增加,为了方便快速检索、提高数据的管理效率,出现了数据库的技术,安静斌介绍,作为信息管理系统最底层的一个核心技术,数据库有着很强的目标性,“这数据库中,每一个字段的含义是非常确切的,而且数据都是有用的。”

以一个银行的数据系统为例,在最早的银行数据管理系统中,用户的账户余额是最核心的数据,也就是说,银行除了保存用户的身份信息数据,实时更新用户的账户余额数据之外,对于用户的转账、收入、支出等等业务都不会记录。

而到了大数据时代,银行会把用户账户上的转账、业务、资金流转等数据保存下来。

在这样的情况下,数据的价值不再像原本那样集中,但海量的数据中,隐藏着用户的消费习惯、收入支出水平、潜在的业务办理可能等等信息,例如,一个经常在转入余额后短时间内就完成消费的账户,可能就是推广贷款业务的潜在客户。“这些海量的数据就像是沙子,数据科学现在要做的,就是利用我们现在信息系统的高处理能力,在里面淘金。”

之江实验室网络空间大搜索研究中心副研究员许浩将原本的数据管理系统中,数据相互没有联通、各自沉淀的状况称为“孤岛”,关于同一个目标的不同数据沉积在不同的孤岛中,当人们试图对这个目标进行数据化的分析,就需要一点一点去提取数据,才能看到目标的全貌。

许浩举例,政务处理是一个非常典型的案例,也是之江实验室正在与杭州市政府合作探寻的新方向,“比如说,一个刚刚来到杭州工作的人,他想看看自己有没有落户的资格,那么他的居住信息在公安局,工作信息、社保信息在社保局,教育信息在教育部,通过大数据,可以把这些信息打通。现在杭州是最多跑一次,以后我们说一次都不用跑,所有的信息都整合在一起,查询、办理全部数字化、电子化,打破这些孤岛。”

思维变革

一个也许会令很多人吃惊的事实是,如今的大数据行业,早已不是人们印象中IT技术男的天下。

安静斌认为,数据科学发展到如今,已经不再是局限于IT领域的一种技术,而是一个综合性的学科,成为了一种支撑性的技术,“比如说医学出身的,做智能诊断、电子病历,生物学出身的,研究基因测序、基因分析,管理学出身的,就在做智慧城市这些。”

许浩就是一个“跨界大数据”的典型例子,他攻读了经济学博士后,选择从事数据科学,“这其实是一个必然的趋势,数据科学的发展,对于经济学以及其他很多学科,都产生了巨大的冲击。”

以经济学领域为例,在传统的经济学模型中,需要在特定的条件下,对一定数量的样本进行数据分析,而在大数据的支撑下,即使是用非常简单数据数学模型,也可以在摆脱原本的一些特定条件的前提下,通过对全样本的数据分析,得到更加有价值的结论。

许浩认为,这实际上是对传统思维和方法论的变革,“我们可以看到,越来越多最顶级、最前沿的经济学家金融学家,他们发表的论文已经超出了常规的一些方法和数据,用全量的数据来做研究,这是跟传统方式完全不同的数据来源,就好像原来我们需要非常精准精密、设计好的实验环境,但现在不管在哪里,我们都可以做这个实验。”

在科研领域之外,数据科学作为一门应用科学和革命性的技术,正在对许多行业进行重构洗牌,例如,在我们如今频频提起的新零售领域,大数据的挖掘是供应链得以优化的关键,在电商平台,利用大数据为用户提供定制化、个性化产品和服务已经卓有成效,而在餐饮、服装等等行业中,利用数据分析选址、研发新产品、定价也成了重要趋势。

这样的趋势下,传统企业除了关注自身发展之外,也需要外部数据系统来判定行业形势,从而做出理性的决定,这是运营思维上的彻底改变,“从小了来说,阿里巴巴的一个商铺,他可以通过购买一些数据增值服务,了解到商品的季节波动、定价区间,从而明白如何打败自己的竞争对手,更广泛一些的话,制造业、工业等等,都受到了影响。”

这些细密琐碎的变化,其实只是大数据带来的一部分,安静斌笑言:“从人类历史的这样一个角度出发,我们本身作为从业者而言,能够参与到这样一个革命性的行业中去,这是一件很有成就感的事情。”

野蛮生长

作为下一代革命性技术人工智能的重要依托技术,国内的大数据行业在全球走在了前列。

安静斌称,得益于中国庞大的互联网经济体量,以及总的人口规模,中国每年的数据增长量在全球排名前列。2018年5月,中国工信部副部长陈肇雄在贵阳“数博会”上表示,预计到2020年,中国数据总量全球占比将达20%,将成为数据量最大、数据类型最丰富的国家之一。

国家级发展战略的高度定位,是大数据行业得以快速发展的重要原因。2015年9月,国务院发布《促进大数据发展行动纲要》,提出要从顶层设计层面,加强对大数据行业的支持,此后,各部委密集发文,从各个维度全力支持大数据行业的发展。

在政策的高度关注下,国内大数据行业增长迅猛,智研咨询发布的《2018-2024年中国大数据行业发展趋势及投资战略研究报告》显示,2012年,我国大数据市场规模约为35亿元,而2017年,大数据市场规模达到358亿元,增长十倍,预计到2020年,大数据行业市场规模将达到730亿元。

由大数据技术带来的企业规模增长及社会效益则更难以估量,“我们的政府在变得智能化、数字化,我们的企业在探索中优化,包括媒体也在做数字化转型,大数据带来的冲击是方方面面的,未来还会有更多的新应用、新技术落地。”

在生长与探索之中,一些过快发展留下的问题不可避免。

在许多关于大数据的讨论中,隐私问题绕之不去,曾被“莆田系”、“血友吧”事件缠身的百度李彦宏发表过这样的言论,“中国人更加开放,对隐私问题没有那么敏感,很多情况下他们愿意用隐私交换便利性,那我们就可以用数据做一些事情。”

实际上,国内更多大数据公司的做法与李彦宏所言并无区别,许浩表示,由于国内在相关立法方面相对滞后,国内的大数据公司正在野蛮生长,“为什么叫野蛮生长?拿到数据就是王,他们不会管这个数据是从哪来的,数据有没有道德或是法律上的风险,在他们的思维里,拿到了数据就可以赚钱。”

对于一个年轻的行业而言,这并非可以持续的常态。安静斌称,“大数据这个行业还远远未能达到它的上限,还在一个发展期,我们希望政府、相关部门可以看到这一点,在给予它更多照顾的同时,也应该对它进行一些约束。”

猜你喜欢

转载自blog.csdn.net/cqacrh2798/article/details/88073387
今日推荐