大数据开发的最大障碍是什么?

张力奋:现在大数据开发面临很多障碍,中国地方政府想建设智慧城市,但是要整合政府内部数据源的话,几乎是不可能的事情。 如果数据源的问题不解决的话,大数据的开发几乎是无法完成的。

在你们看来,目前是什么阻碍着数据价值开发?最大的障碍在哪?

微软全球资深副总裁洪小文:未来大数据的挑战,一在于政府内部,二是数据安全问题,特别是消费者的隐私权。各公司持有不同的数据,举个例子,信用卡公司有人的消费记录,而买什么是不知道的,但是每一个柜台知道,这些数据是不是可以串起来,但问题是谁有这个权利说这个数据可以用,这牵扯到法律。第三,我担心在数据闭环之后,社会多样性会减少。就像今日头条,你喜欢什么我就多给你一些,难免就囿于这个圈子。所以我们需要倾听不同的声音,比如听分析大数据后那些非主流的意见。不去思考就全盘接受,我认为这可能是未来大数据发展中必须要面对的一个课题。

平安普惠副总裁兼首席市场官CMO徐汉华:今天搜集数据很容易陷入一个局面,强调数据之“大”,忽视了数据的有用性。很多大数据公司与我们合作时表示,他们有很多数据和用户信息,但问题是他们的数据跟我的目标的关系何在,这才是最重要的。

第二点,需要的数据依然短缺,如何收集需要的数据是个问题。比如说中国真正有信用记录不到4个亿,还有许多人没有信用记录。有些互联网公司声称他们有很多客户的数据,这些数据可能会是某人上个礼拜买了双鞋,这礼拜去了肯德基消费,但问题是这些数据对于信贷没有任何的帮助。这背后的逻辑其实与洪院长所说相同。

第三,我很赞同陆金所董事长计葵生先生的观点,他认为数据不是断开的,数据是连接的。断开的数据不足以支持准确的判断,历史数据可以提高准确度,我们需要持续地累积数据,这是让数据更有效的方法。

此外,也是数据安全问题。现在黑客众多,如何保密,如何合法合理地使用数据都是处理数据时需要考虑的问题。

张力奋:Palantir公司是如何解决数据源问题的?你们跟数据源提供者是否有着怎样的共识或者契约?这个问题我想也是中国很多公司面临的问题。

Palantir副总裁 Kevin KAWASAKI:我们不提供数据,也不存储数据,我们帮助客户使用他们自有或者从第三方获取的数据,使之成为重要资产。我们面临的挑战之一就是世界始终在变化,我们不知道明天会有什么样新的数据源,怎样的新问题,所以我们需要不断地适应,要能够不断地整合新生数据到现有的模型当中来,不断解决新问题。

张力奋:我问一下王俊先生,涉及跟个人生命健康有关的隐私问题时,当时的华大基因,现在的碳云智能是如何来收集数据的?有没有你们说的基本准则?

碳云智能CEO王俊:这其中有两个问题需要考量,第一是数据的所有权。比如我们去医院抽血、看病,医院获得了我的数据,那么这个数据是属于医院还是我的?再比如其他健康数据,运动手环,微信运动记步,这个数据是属于微信还是我的?数据所有权的归属非常重要,而毫无疑问数据属于个人,这是我们生命体产生的数据自然归属于个人,这是最基本的权利。

张力奋:从伦理角度来看,这个答案是很清楚的。那从法律角度来说,作为一个普通公民也是数据提供者,我们能够得到法律的保护吗?

王俊:这涉及到第二问题——数据价值。每个人愿意分享数据的意愿和他能获得的价值有很大关系。比如说我已经病入膏肓了,一个药厂表示若我能把数据共享给他们,他们可能开发新药品治愈我。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:522+数字189+数字307,欢迎添加,私信管理员,了解课程介绍,获取学习资源我相信99%的人都愿意共享数据。退一步讲,不说疾病,举个例子问个人是否愿意参与科学研究,而这科研成果会对世人的生活产生长远的影响,很多人可能也会愿意。从我的价值观来说,如果把我的数据放到一个公众的可供科学研究使用的地方,我是非常愿意的。

曾经我在丹麦做过演讲,议题是与会者是否愿意测试基因并贡献个人基因数据。当我第一次问大家分享基因数据是用来看自己的父亲是不是真正的父亲时,举手的不到10%。我问了五次,在第五次举手前我讲了一个案例,全球5%—6%儿童有出生缺陷,基因疾病可能有上万种。比如说渐冻症也是一种基因疾病,有这个基因却不发病的人占拥有这种基因的十分之一,如果把这个人找出来,搞清楚基因,那么就可以找到治愈病人的方法,你愿意不愿意做帮助别人的人,然后所有的人都举手了。所以我觉得事情的做法取决于个人价值观,取决于你用什么方式来对待这个数据。

张力奋:我想问Michael一个问题,在您担任联合利华总裁的时候,你在公司推行怎样的数据政策,哪些能做,哪些不能做?

联合利华公司前董事长Michael TRESCHOW:数据政策肯定是以个人的安全性为第一位,因为数据牵扯到每个人的安全,你必须确保不会泄露任何的个人身份信息。

另外一个越来越重要的事情就是需要区分哪些数据可以自己留着,哪些东西可以分享。开源其实是一个好东西,但从另一个角度来说,在知识产权受数据驱动的现在,特别是我们在研发产品的时候,你要决定哪些是专属的数据,哪些是可以与其他人共享的,这是特别有意思的一点。

第三涉及到跨国情况。不同的国家对于这些事情有不同的看法和政策。比如说医疗方面,在我的国家甚至都不能泄露医院挂号信息,如果说你去了另外一个医院,他们根本都不知道你的病史。所以对我们来说,我们需要找到一个方式,使得立法者、监管者不会特别恐慌,并帮助他们知道,哪些可以分享,哪些不可以分享。譬如工程、艺术等,这是可以分享的。

发布了123 篇原创文章 · 获赞 0 · 访问量 5056

猜你喜欢

转载自blog.csdn.net/mnbvxiaoxin/article/details/103936818