Table of Contents

数据的特征

如何处理数据

从机械思维到大数据思维

对AI的三种观点

现在人工智能这个话题非常火，特别是阿尔法狗击败李世石后，各种对于人工智能的想象都冒出来，有特别乐观的，认为人工智能马上就会在社会中大规模的普及，用不了多久我们就会过上科幻电影里那种上天入地、人机合一式的生活，各种疾病都会被彻底消灭，人类会彻底从重复性的劳动中解放出来，从此过上衣食无忧、欢歌笑语的生活。

还有特别悲观的，认为人工智能觉醒后，我们人类的末日也就不远了，因为它们的智力发展水平会成指数级的增长，很快就会发展到我们人类根本不能理解的更高维度的水平，那时候人工智能看我们人类就像现在我们人类看蚂蚁一样，完全不在一个智力等级，我们根本理解不了它们，就像蚂蚁不能理解人类，但是人类对蚂蚁却了如指掌一样，说不定就像《黑客帝国》电影里演的那样，人工智能会利用人类的情绪发电，彻底把人当作一块电池来用。

还有比较中立的观点，认为抱有前两种想法的人都可以去写小说了，人工智能就是人类大脑的一个延伸工具，它们就是为人服务的，就像手机和电脑一样，我们让它们工作就工作，让它们关机就关机，根本不可能出现逆袭人类的可能。

那到底哪一种说法比较靠谱呢？吴军在这本书中给我们做了详细的解释，他自己就是这个领域资深的专家。在这本书中，他并没有从正面回答这个问题，而是从人工智能的历史讲起，从源头一直讲到现在，把人工智能的原理和发展历程清清楚楚地摆在我们面前，让我们知道人工智能这个技术到底是什么样的原理，我们到底需不需要恐慌，面对人工智能的冲击我们应该怎么调整自己。下面我就从人工智能的发展，和我们面对人工智能需要做出哪些改变这两个方面说说这本书。

AI的突破

先来看看人工智能有什么样的发展历程。你有没有想过，人工智能其实在60年前就有了，为啥偏偏突然在这几年才开始爆发？特别是乔布斯让智能手机普及之后，各种各样的智能应用、智能硬件开始雨后春笋般地往外冒，什么智能机器人、智能汽车、智能家居，难道大家是受了乔布斯的启发才开始专注智能领域吗？其实不是。真正的原因是，我们现在这个时期恰巧是大数据量变产生质变的转折点，而这种质变给一直困扰人工智能发展的难题提供了解决方案。就是说，原来研究人工智能的那一套方法其实都是错的，现在大家才发现，让机器拥有智能的钥匙其实是大数据。

数据、信息和知识

此话怎讲？我们先理解一下什么是大数据，你可能觉得大数据就是一堆数字，或是必须要由数字构成，其实不是，数据的范畴要比这个大得多。网上的所有东西都可以算作数据，比如文字、图片、视频、你发出去的信息、你收到的邮件，甚至包括你的日常活动，比如下班走哪条路回家、去了哪个餐厅吃饭，所有这些都可以算作数据。有了数据之后，再经过系统性地整理，就变成了信息，信息再经过更简洁抽象地加工，就变成了知识。举个例子，比如通过测量星球之间的相对位置和时间，就得到了数据，通过数据能得到星球的运动轨迹，就是信息，通过信息总结出开普勒三定律，就是知识。所以，数据、信息和知识是层级递升的关系，一层比一层高。我们人类就是不断通过使用知识改变世界的，这里数据就是一切知识的基础。

数据的特征

现在我们收集到的数据有3个特征：首先是体量大。这个大家都能感受到，我们地球上有70多亿人，每天生产的数据现在大多数都会被原原本本地保留下来，这还不算人类以前生产的知识资料，而且每时每刻人们都在生产新的东西，这是多大的一个体量。拿谷歌拍摄街景的汽车来说，一辆汽车每天生产的数据就是1TB，1TB就是1024G，一部电影按500M算，也就是说一辆汽车每天能生产出2000部电影那么大的数据量。

当然，光是体积大不能算是大数据，它还有一个特征，就是多维度。如果你在手机上下载了一个百度的应用，这个应用必须让你填写手机号，你为了使用这个软件就填了，这时百度会立马知道你喜欢吃啥。这是怎么回事呢？很简单呀，通过手机号能调出你的搜索习惯、你的通讯信息，然后你的性别、年龄、位置、文化背景……这些一连串的信息都会被调出来，然后根据大样本统计，你平时关注什么东西、你的生活习惯都会清清楚楚地展现出来，如果深挖下去，你的收入情况甚至有什么特殊癖好百度都能知道，知道这些信息后，你喜欢吃什么他们很容易就能推测出来，当然他们是不会公布这些信息的。大数据就像福尔摩斯一样，只要你透露一点点讯息给它，它就能通过各个维度把你的生活习惯还原出来，我们其实在大数据面前都是透明人，可能它比我们自己还了解自己。

大数据还有一个特征是完备性。比如，以前你如果想收集地球上所有人的面孔信息是不可能的，但是现在理论上就有可能，只要人们都用智能手机，你就能想办法获得所有人的数据，这就是数据的完备性。再比如，像谷歌的无人驾驶汽车，你以为它是通过对周围物体的扫描做出即时反应的吗？哪有那么快的计算机，至少现在还不是用这种方法，它其实是提前把道路上所有可能遇见的情况全部预先输进电脑里，然后根据扫描情况快速匹配识别，最后才能做出各种各样的反应。它是一个配对比较加筛选的过程，这里面就得考虑数据的完备性，有了足够全面的数据，才能做出更精准的选择。就像你在网站上搜索东西，网上有的东西你才能搜得到，如果没有你就搜不到，所以谷歌无人驾驶汽车只能去熟悉的地方，不熟悉的地方它就去不了。

如何处理数据

了解了数据的这些特点后我们就发现，智能问题实际上就转变成了如何处理数据的问题。以前研究人工智能的方法叫做“鸟飞派”，就是开始设计飞机的人都觉得如果人类想要飞，就得像鸟一样扇动翅膀，结果大家都知道了，飞机起飞的原理是空气动力学而不是仿生学。以前研究人工智能也是这个思路，觉得机器如果要有智能就得像人一样思考，我们人类的思考多复杂，要原原本本还原出一个人类大脑那是得有多难，这条路走得肯定是举步维艰。

现在有了大数据就发现，同样的问题，机器进行快速匹配计算一样能解决，用的方法虽然和人的思考习惯完全不同，但是能解决问题。就像阿尔法狗一样，只要提前给它输入所有棋盘上可能出现的情况，面对具体的选择，它就能从信息库中快速地筛选出最佳的步骤，除非李世石出了什么新招，阿尔法狗以前没见过，那就没办法了。但是话说回来，只要这个新招出过一次，机器又把这个方法记录下来了，下次再出这招就没用了。这就是人工智能的学习能力，实际上就是利用数据训练它们，让它们记住各种各样可能发生的情况。

你看，思路一变，以前的问题就都不是问题了。刚才我们说过，数据在每时每刻都以指数级的量在增长，从这个角度说，机器的智能水平也会随着数据量的增长而增长，所以智能革命的趋势是不会变的，因为数据是不会变小的，我们要想找到自己的独特性就得不断地发明创造，创造机器没有见过的新数据，所以说未来就是创造力的时代。

从机械思维到大数据思维

我们刚才说了大数据的出现让人工智能得到了突飞猛进的发展，那面对这种变化，我们当然也需要不断地调整自己做事的方式方法来适应这些变化。具体要怎么做呢？吴军在这本书里说道，首先要进行思维上的转变，怎么转变？从单纯的机械思维转变到大数据思维。

机械思维

首先我们来说说什么是机械思维。现在很多人听到机械思维就马上和死板、僵化这些词联系到一块了，觉得特别落伍，但其实在两个世纪以前，机械思维可是个特别时髦的词，就和我们今天的互联网思维、大数据思维一样，那个时候谁如果被别人认为是具有机械思维的人，那这个人就是顶级的精英。比如牛顿、瓦特、麦克斯韦这些人，他们能找到这个世界的规律并且能用简单的公式和语言描述清楚，而且这个规律还是放之四海而皆准，最后这些规律还能指导实践。那什么是机械思维呢？具体来说，它的本质就是确定性和因果关系。

确定性

比如说牛顿用几个简单的公式，像力学三定律和万有引力定律，就把所有宏观物体的运动规律描述清楚了，焦耳用一个公式就说清楚了能量守恒的原理，麦克斯韦用几个公式就描述清楚了电磁的原理。有了这些简单的公式，我们就能用它们来指导我们的创造，比如瓦特用这些原理改进了蒸汽机，直接带来了工业革命的发展，我们人类才慢慢摆脱了物质的匮乏。可以说机械思维是我们现代文明的基础。但是有一点，机械思维能被普遍接受的一个大前提是，它默认这个世界的所有事物都是有规律的，而且这些规律是确定的，只要肯用功、肯努力，就一定能找到，我们只要去找就好了。这是一个大前提。

因果关系

机械思维还有一个特点，它依靠的主要逻辑是因果关系。就拿牛顿的力学定律来举例，当我们给物体施加一个外力时，它就获得了一个加速度，这个加速度的大小取决于外力的大小和物体本身的质量，这里面就有因果关系，外力是因，加速度是果，所有的公式都遵守这种因果关系。如果没有这种关系，我们就没办法描述这个世界。

再比如，现代医药学的核心也是因果关系。如果要治疗一种疾病，得先找到病原体，然后根据病原体生产克制它的药，就像你去医院看病，医生首先要通过各种手段检测你生病的原因，然后才能对症下药。这就是一种因果关系，举个反例，中医就不太注重因果关系，人们只知道哪几种药熬成汤喝了管用，至于为什么管用大家好像并不在乎。所以中医的治疗效果就时好时坏。

我们说了机械思维的两个特质，确定性和因果关系。这种思维方式在以前当然是非常有用，但是随着我们对世界的认识越来越清楚，我们突然发现这种思维方式大多数时候不太管用了，为啥？因为这个世界越来越复杂，并不是像机械思维默认的大前提那样，什么事情都是有规律的，它本身就存在极大的不确定性。

举个例子，如果我们在一个桌子上掷色子，如果不作弊，在色子站稳之前通常是没办法知道它是几点的。可是假如我们想通过公式计算出这个色子的运动规律，那需要知道哪些数值呢？我们得知道色子的形状和密度分布，出手时的力量和旋转的角速度，我们还得知道桌面的弹性系数和空气的流动速度，这里面还有很多我们忽略的细节，如果把所有的细节考虑清楚，那理论上应该是能测出色子的运动规律的，但是在实际操作中这里面的很多细节是没法把握的，比如出手时的速度和力量，要怎么测呢？所以就算考虑了所有情况得出来的计算也未必正确，那我们为了方便，干脆就假定每一面向上的概率是1/6，简单说掷色子这个动作本身就充满了不确定性。

再比如说量子力学里有一个原理，叫测不准原理，它的意思就是说，像电子这样的基本粒子，你要测它的位置总是有误差的，为啥呢？因为你测量它这个动作本身就会对它的位置产生影响。只要你一接近它，它原来的运动轨迹就变了。就像买股票一样，当所有人都依照一种预测去买股票时，实际上是给股市一个相反的推动力，这就让它的走向和开始的预测变得相反。

所以说，这个世界所有事情都有规律这个大前提首先就不存在了。这个世界很多事情是无规律可循的，机械思维的第一根柱子首先站不住了。

再看第二根柱子，因果关系。不是说因果关系就不灵了，而是依靠因果关系这种方式认识世界的效率其实非常低，比如像那种终极的定理公式，你得等几百年才能等到一位像牛顿、爱因斯坦这样的人，而且就算碰见了，他们也得依靠很大的运气才能发现这种规律，像爱因斯坦，它是在某个下午实在无所事事，就想象一个人坐着椅子从天上加速下落，然后发现重力和加速度的关系，才发现了广义相对论；像牛顿，你得等到一个苹果恰巧砸在他的头上，才能发现万有引力，当然苹果到底砸没砸在牛顿头上我们不确定，但是它可以说明，想要发现一个伟大的定律和规律，除了得有过人的智慧外，还得有很好的运气。

大数据思维

既然世界充满了不确定性，因果关系效率又很低，那我们还怎么认识世界呢？我们发现，大数据思维给机械思维做了完美的补充。

熵

首先，大数据解决了不确定性的问题。热力学中有一个概念，叫做“熵”，它是描述一个系统中无序程度的一个概念，后来被通信领域的专家克劳迪·香农引用到通信领域，提出了“信息熵”这个概念，它可以用来描述一个系统的不确定性。信息熵这个概念指出，信息量和不确定性有关。

举个例子，比如你看一本心理学的书，如果你本来就对心理学这个领域很了解，那你可能很快就能看完这本书，就是说这本书只要给你提供很少的信息量你就消除了对这本书的不确定性。相反，如果你看一本编程的书，恰巧你又是这个领域的小白，那你可能就需要从头到尾一字不落地看完才能理解，你需要大量的信息才能消除对这本书的不确定性。所以说想要消除不确定性，最好的办法就是引入信息。简单说，信息可以消除不确定性，换做我们平时经常见到的例子就是，对用户越是了解，广告的投放就越精准，广告效果就越好。前面我们说过，信息就是数据的总结和加工，所以数据天生就可以消除不确定性。

强关联性

其次，大数据的强关联性可以替代因果关系。举个例子，如果按照因果关系，研制一种新药就得花费很长的时间和巨大的成本，比如在以前研制一个新的处方药至少得花费10年以上的时间和10亿美元的经费，所以一些新药都特别贵，因为如果他们不在专利期内赚回成本，那以后就不会有公司再愿意投钱研制新药了。

现在有了大数据就不一样了，它可以对每一种药和每一种疾病进行配对，比如现在的病大概有5000种，药有1万种，我们对它们进行匹配就会发现，一种治疗心脏病的药对治疗胃病特别有效，虽然不知道为啥，但是结果显示就是有效。这样先知道结果，然后再倒推原因，通常只需要花3年时间验证就可以了，花的钱也只要原来的1/10就够了。这种方法实际上依靠的就不是因果关系，而是数据之间的强相关性，我们发现A药对B病有效，至于为什么有效，再去找原因。这种做法当然又快又有效。

再举个例子，比如在美国就发生过这么一起案件，各州的检察官要告烟草公司，因为吸烟有害人们的健康。吸烟有害健康这件事，我们现在看那是常识，但是以前大家不这么认为，比如有一份报告就显示，吸烟男性肺癌的发病率是不吸烟的23倍，女性则是相应的13倍，这在统计学上看，吸烟和肺癌就肯定是有联系的，但是对不起，这个证据不足以对烟草公司判罪，烟草公司可以找出很多理由来狡辩，比如他们可以说，吸烟的人之所以要吸烟，是因为他们体内本来就缺一种物质，而导致肺癌的就是这种物质，而不是烟草的作用。现在我们听这个说法很荒唐，但是在法律上是站得住脚的，因为美国法律采用的是无罪推定原则，被告的一方先假定是无罪的，除非你能提供足够的证据。

那检察官想要告倒烟草公司就得找证据呀，直接的有因果关系的证据非常难找，所以他们只能找烟草公司所说的那种，在其他因素都排除的情况下，吸烟者的发病率依然比不吸烟者高的证据。这件事看起来很难，做起来那更是不容易，检察官们全世界地收集证据，甚至跑到我们中国的西南地区，专门找那种族群单一、生活习惯相差较小的村庄来收集样本。最后虽然还是没有找到香烟和肺癌有直接因果关系的证据，但是依然收集了大量的样本来间接说明吸烟的危害，因为样本够多也很权威，最终检查官胜利，烟草公司才算是被告倒，罚了3655亿美元。

从这个案件中我们可以看出，其实人们已经从只接受因果关系，转到也接受相关性的关系上来了，如果法律上这种强相关性都能被作为证据接受，那这种相关性应用到其他领域自然就是顺理成章的事情了。

比如我们经常会看到在视频网站上有零食的广告，在女装的网站上有男装的广告，在咖啡评论网站上有信用卡的广告，这些搭配如果没有大量的数据统计做基础，一般人根本就想不到。当然，一旦我们找到结果，去倒推原因就很容易，比如视频网站上放零食广告，这符合人们看视频的时候吃零食的习惯，可是咖啡评论网站上信用卡广告点击率很高怎么解释呢？

我们可以猜出各种各样的原因，可能爱喝咖啡的都是中产阶级，他们要维护高品质的生活大多数都得靠信用卡，当然也有可能是使用信用卡的人买咖啡可以打折，所以他们爱买咖啡，不管哪种原因其实都不重要，对广告投放商来说，能互相带动销售就行，谁去管它背后的原因，数据显示怎么关联好，那就怎么关联好了，根本不需要去关注原因。你看，我们现在就是能通过强关联性直接找到答案，数据之间的相关性某种程度上是可以替代因果关系的。

总的来说，机械思维以前是我们认识世界的主要方式，今天也一样能指导我们的行动。如果我们能找到确定性和因果关系，那当然最好了，但是面对如今这个复杂的世界，已经不是随便几个定律几个公式可以讲清楚的了，到处都充满了不确定性，在这种时候，数据给我们提供了解决问题的新方法。数据之间的强关联性可以某种程度上代替因果关系，让我们直接找到问题的答案，这就是大数据思维的核心。大数据思维和机械思维不是相互对立的，而是互相补充，今天的我们在这场变革中一定要学会这种思维方式，因为它就是新时代的方法论。

如何面对AI

最后我们来说一说大家都关心的一个话题，就是我们的工作被人工智能绞杀之后，那我们要怎么办呢？吴军在这本书中给出的答案是，没有别的办法，人工智能只会把贫富差距越拉越大。唯一能做的是争当2%的人，不要去做那98%的人。这2%和98%是怎么来的呢？实际上是前一段时间，在占领华尔街运动中那些游行示威者自称是代表98%的人，在那场示威中，这些人没有明确的目标，不知道自己要反对谁，要支持谁，甚至没有明确的诉求，这场游行持续一段时间后就不了了之了。其实，那些游行的人正是被那2%的人养活着的，是2%的人创造了大量的财富，这些人才有闲工夫去游行。不能说他们都是失败者，但是他们肯定不是这个社会的中坚力量。

每一次重大的技术革命都需要很长的时间来消除它的负面影响，因为新的技术革命会让很多产业消失，或是让从业人口大量减少，这次智能革命也不例外。事实证明，那被释放出来的劳动力至少需要一代人以上的时间才能消化，而且消化这些劳动力实际上并不是他们找到了新出路，而是他们退出了历史舞台，只有极少数的人能够及时地切换思维方式，掌握新的工具方法来适应新的时代。听起来有点残酷啊，但是说到这也就清楚了，唯一想要不被这次浪潮席卷的方法就是争当那2%的人，而不是自豪地宣称自己是那98%的人，拥抱智能时代的任何新技术新工具，努力跟上时代的步伐，才能成为受益的少数者。

总结

我们来回顾一下，这本书给我们详细地解释了大数据的特点和人工智能的发展历史，指出了大数据的三个特点：体量大、多维度和完备性。正是这三个特点让人工智能技术得到了飞速的发展，人工智能实际上就是如何处理数据的问题，它带来的智能革命要求我们从机械思维切换到大数据思维，用不确定性的眼光看世界，再用大数据的强相关性替代因果关系。掌握这些我们就能以正确的姿势迎接这次智能革命了。

下面说一点我对这本书的感想，我认为人工智能替代了人们重复性的工作是一件好事，人们可能只是主观感觉到过于清闲，和别人相比人生过于灰败，其实总的生活品质还是会不断地往上走，因为富人们、有创造力的人会不断地提升社会的整体福利水平。清闲的生活也会释放大量的创造力，别忘了人工智能的学习对象永远是人，只要我们能不断进步，人工智能就是我们最好的工具。

－－转自得到听书

吴军－《智能时代》

对AI的三种观点

AI的突破

数据、信息和知识

数据的特征

如何处理数据

从机械思维到大数据思维

机械思维

确定性

因果关系

大数据思维

熵

强关联性

如何面对AI

总结

猜你喜欢