大数据时代【Big Data】读书笔记

大数据时代【Big Data】 ——Viktor Mayer-Schonberger, Kenneth Cukier

    这本书讲了讲大数据的概念,他没有定义什么是大数据,而是用for an example的形式定义了大数据。里面的几个例子:Farecast利用机票数据来预测未来的机票票价;谷歌重复使用搜索关键词来检测流感的传播;麦格雷戈博士用婴儿的生命体征来预测传染病的发生;莫里重新利用老船长的日志而发现了洋流。19世纪的电缆信息和工作人员的维修记录可以用来预防未来事故的发生。一个核心的思想是,之前我们没有能力获取全部数据,或者获取全部数据成本过于高昂,使得我们使用“样本”去揣测”全局“。而现在我们有能力获取全部数据,或者获取全部数据的成本大大降低,使得我们使用“全部”数据成为可能。当你掌控了全部数据,那么你能从这里得到你在样本时无法看到的一些东西,同时,这个全集也带给了我们全部的“知识”,只要能不断挖掘出这里的知识,那么这个“大数据”才能真正为我们服务。在这些大数据里,充斥着各种噪音,杂乱数据,但是正确的数据毕竟比错误的要多的多的多,因而,在大数据下那些错误数据会被轻易的发现或者不起作用,从而使得整个使用大数据的系统更加稳健,容错性也更高。虽然我们喜欢刨根问底,凡事喜欢问个为什么?但是在现实世界中,我们越来越倾向于模糊的结果,也就是相关关系运用的越来越多,因果关系也不是那么准确并且耗费极大。再说道大数据的“个人隐私”问题,一个是道德(使用大数据人的道德),一个就是监管,和现实世界的体系是一样的。还记得实验室老师的一句话:虚拟世界就是将现实世界的一些东西统统搬到虚拟世界里,然后才进行一些改进。

    里面一个小故事对我还是有些启发的:20世纪90年代,就是199x年,由于网络上的垃圾程序盛行,一个牛人发明了验证码,随后就有了今天每个人在每次输入验证码时都会浪费10s时间来做一件无意义的事情(除了验证没有他用)。这个东西能用来做点有用的事情吗?全球每年因为验证码要浪费多少时间?能不能把验证码来结合做点别的事情?他们弄出了一个reCAPTCHA系统(CAPTCHA的中文全称是全自动区分计算机和人类的图灵测试)。让他们的电脑去向人类求助。具体做法是:将OCR软件无法识别的文字扫描图传给世界各大网站,用以替换原来的验证码图片;那些网站的用户在正确识别出这些文字之后,其答案便会被传回CMU的reCAPTCHA系统。在完成功能的同时还能附带做点什么有用的事吗?要有一颗“做事”的心。

    还有一个小故事:google当年做街景,开着小车到处转悠。其实google挺贼的,小车里不仅采集照片(这些有争议的民房信息,意大利就抗议这个事情,怕黑手党利用街景洗劫他们),还在开车的同时记录下GPS信息为之后自动驾驶收集资料,还记录附近wifi的信息。所以一趟小车开下来,它想要的好几种数据都有了。虽然当时他可能想不到用这些数据做什么,但是他有这”贼心“,一次就能收集多个数据,就和打游戏一样,你得先有意识,然后想出法来就去操作。在收集信息的时候,如果条件允许,尽量多收集一些数据,方便未来使用,并且成本也大大降低。数据不仅是银行,还可以变现。

    

    下面是一些摘抄:

====第一部分:大数据时代的思维变革=====

1. 更多:不是随机样本,而是全体数据

2. 更杂:不是精确而是混杂性

3. 更好:不是因果关系,而是相关关系

====第二部分:大数据时代的商业变革=====

4. 数据化:一切皆可“量化”

5. 价值:“取之不尽,用之不竭”的数据创新

6. 角色定位:数据、技术与思维的三足鼎立

====第三部分:大数据时代的管理变革====

7. 风险:让数据主宰一切的隐忧

8. 掌控:责任与自由并举的信息管理

结束语:正在发生的未来

    大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。

大数据不是指不用随机分析法这样的捷径,而采用所有数据的方法。

大数据的简单算法比小数据的复杂算法更有效。

相关关系没有绝对,只有可能性。

一个东西要出故障,不会是瞬间的,而是慢慢地出现问题的。通过找出一个关联物并监控它,我们就能够预测未来。

收集和分析数据的花费比出现停产的损失小得多。当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。

”是什么“,而不是“为什么”

不像因果关系,证明相关关系的实验耗资少,费时也少。

相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。

预测给我们知识,而知识赋予我们智慧和洞见

数字化与数据化是两个概念

苹果推出iphone是经过大量调查的,苹果和运行商合作时索取了大量用户的需求数据,得到用户体验是一件非常重要的事情,所以没有偶然,都是发展的必然。

猜你喜欢

转载自zzgthk.iteye.com/blog/1940118