人工智能简史

内容简介

本书全面讲述人工智能的发展史,几乎覆盖人工智能学科的所有领域,包括人工智能的起源、自动定理证明、专家系统、神经网络、自然语言处理、遗传算法、深度学习、强化学习、超级智能、哲学问题和未来趋势等,以宏阔的视野和生动的语言,对人工智能进行了全面回顾和深度点评。

本书作者和书中诸多人物或为师友或相熟相知,除了详实的考证还有有趣的轶事。本书既适合专业人士了解人工智能鲜为人知的历史,也适合对人工智能感兴趣的大众读者作为入门的向导。

名人推荐

“《人工智能简史》确实是本难得的好书。它既是一本严肃的信史,又通俗易懂,带有科普的性质,更难得的是妙趣横生,使人拿起来一读就放不下手。要把人工智能的历史和背后的哲理讲得既准确又明白易懂,进一步还要有趣,那又是一项十分艰巨的任务。可是尼克做到了。”

——毛德操(计算机专家、浙大网新科技首席科学家)

“《人工智能简史》这本书应该是这两年出版的此类书籍中最好的一本,对我们建立对 AI 的全景式理解很有裨益。对于人工智能的来龙去脉,成败得失的原因,尼克老师娓娓道来,既不失深度,又不枯燥难懂。在最后两章,他讨论了不可避免的 AI 的未来和哲学问题,从能源、自动机器、社会的综合历史的角度,进行了发人深省的探讨。”

——鲍捷(文因互联 CEO)

“这本书不错!把各位人工智能大师的思想、成果、师承、恩怨都串起来讲,就像我们在与各位大神一起工作、生活一样。

——孔华威(中科院计算所上海分所所长,起点资本合伙人)

“尼克以灵活、轻松的笔调写出了人工智能发展历程中的人物、故事以及思潮起伏。他特别重视对具体的思想家、科学家、学者的刻画,轶事、趣闻像撒胡椒面一样为整本书“提味”,与一般人的预期相反,就叙事的有趣程度而言,《人工智能简史》简直不像是一本讲科学技术的书。”

——《南方都市报》

作者简介

尼克,乌镇智库理事长,国家“千人计划”专家。毕业于中科院,美国麻省大学。早年曾任职哈佛和惠普;后创业投资,往返于大陆和硅谷。无论忙闲不忘读书写字,作品多发表于《上海书评》,并有著作《UNIX 系统 V 内核剖析》和《哲学评书》。

本书内容

前言

历史素有两种写法:以人为主和以事为主。所有的传记都是以人为主的;而各种专史,如战争史,则多以事为主。所谓历史是人民创造的还是英雄创造的,我个人的偏好还是以人为本。八卦的历史,读者自然喜欢,对作者也有好处,就像一战后英国首相劳合 · 乔治对他的耶路撒冷总督说的那样:有争执,咱们政治家才派得上用场,如果他们停下来不打了,你就失业了。

人工智能到底是什么?给一门学科界定范围很难,尤其是这门学科还在快速变化中。即使是数学这样的成熟学科,有时我们也理不清边界,而像人工智能这样朝令夕改的,更是不容易闹清楚了。人工智能的定义素无共识。在大学里,机械系、电子系、计算机系,甚至哲学系都有人干人工智能。让这些人对这门学科取得共识谈何容易。从实用主义(哲学的“实用主义”,不是日常用语“实用主义”)看,一个学科就是学科共同体共同关注的东西。有些毛边可以宽容,演变。这种外延式的定义要比从上帝视角给一个内涵式定义更为实用。

一般认为,人工智能起源于1956年在达特茅斯学院召开的夏季研讨会。国内关于达特茅斯会议和神经网络早期历史的各种段子很多源于我几年前的两篇博客,后来被《上海书评》转发。经过修订,我把它们重新编为本书的两章:“达特茅斯会议:人工智能的缘起”和“神经网络简史”。“计算机下棋”一章的大部分也在《南方周末》发表过。“自动定理证明兴衰纪”的核心内容在《中国计算机学会通讯》连载过。

明尼苏达大学的查尔斯 · 巴贝奇研究所一直在做计算机科学的口述历史,采访了很多对计算机科学有影响的人,其中有相当一批是人工智能学者。大部分的采访都有录音。除了翻阅各种文献外,我听了近100小时的采访录音,许多人工智能老一代革命家临终时话都说不利索,听这种东西除了兴趣,还得有体力。

图灵大概是第一个对智能做出深刻思考的智者。他1936年的文章“可计算的数”奠定了计算机科学的理论和实践基础,也把相关的哲学思考推进了一大步,以至于哲学家蒙克(Ray Monk)把他列为有史以来最伟大的十位哲学家之一。图灵1950年在哲学杂志《心》(Mind)上发表的文章“计算机与智能”是传世之作,但这篇文章没有靠谱的中文翻译,我将我的译文和一篇图灵小传附在书后作为附录。图灵小传的一个早期版本曾出现在我的《哲学评书》一书中,但新版本融入了一些近几年关于图灵研究的新成果。“人工智能”这个词组的出现和达特茅斯会议有关。但英国学术圈在1956之前和之后的很长一段时间一直在用“机器智能”的说法,这和图灵1950年的文章有关。一般认为,这篇文章是这个学科的源头。但后来发现图灵1948年在英国国家物理实验室(NPL)写过一个内部报告,题为“智能机器”,其中提到了“肉体智能”(embodied intelligence)和“无肉体智能”(disembodied intelligence)的区分。机器人学家布鲁克斯(Rodney Brooks)认为图灵1948年的报告比图灵1950年的文章更加重要,它从某种意义上预示了后来符号派和统计派之争。这段历史我也列在附录里,放在图灵小传之后,因为我觉得先读读图灵的生平也许会有助于理解他的思想。

本书每一章几乎都可单独阅读,大部分内容,对于受过高中教育的人,应该都不难懂。但第10章是个例外,这一章企图以严肃的态度探讨人工智能。我以一种浓缩的方式讲述了图灵机、丘奇?图灵论题、相似性原则和超计算。没有计算理论,很多人工智能的基础问题实在是拎不清。如果读者觉得吃力,可以跳过这一章。

我常用的一种历史研究工具是谷歌的 Ngram。谷歌扫描了三千多万本书,把书中出现的词组的词频统计结果公布。以时间为横轴、词频为纵轴画一条曲线,就可看出特定的词在不同历史时间段的兴衰,从而得出某些洞察。例如,通过比较“United States are”和“United States is”在历史上出现的频率,就可看出美国人是何时开始认同美国作为一个统一的国家的。很明显,南北战争之后,“United States is”开始变得更常用。我们通过统计若干人工智能中关键词的 Ngram,可以感知人工智能在不同阶段的宏观发展。我曾经写过一篇“计算历史学”(见《哲学评书》)介绍 Ngram。大数据为历史学提供了有力而令人信服的工具。

科普有一种写法:用一些貌似通俗的语言去解释复杂的原理。我一直不大相信这种方法,无论作者是内行还是专业科普作家。我压根就没见过一本可以把量子力学解释清楚的科普书。即使简单如图灵机,也鲜有适当的普及读物。倒是那些讲历史和八卦的书引人入胜,安德鲁 · 霍奇斯的《艾伦 · 图灵传:如谜的解谜者》是内行写作的典范,而数学家所罗门 · 费佛曼的太太安妮塔 · 费佛曼的两本逻辑学家传记是我心目中的标杆。戴森(Freeman Dyson)一直是我喜欢的作者,他也时不时为《纽约书评》写写八卦,趣味和我接近,我总是从阅读他的文章的过程中收获良多。即使我不懂他的数学和物理的领域,也能时有洞察。我的书单上还有蒙克的所有传记,它们既高级又有趣。就像蒙克所说,历史可以帮助内行了解知识的进化并获得新的视角,同时也为外行人了解专业知识提供入门的台阶或向导。

读大科学家写的科普著作,最有意思的倒不是那些对成熟思想的通俗叙述,而是那些对不成熟看法的披露,还有不好意思写到正经学术论文里的自负和牢骚。恰因为这个原因,我也喜欢多依奇(David Deutsch)的几本书。

我们很少有机会在学科发展之初就能把学科脉络梳理清楚。过去有过几个这样的时间段,例如1900年到1950年的逻辑学,1945年到2000年的分子生物学和1950年到当下的语言学。本书除了想梳理始于20世纪40年代的人工智能的历史外,还有一个作者隐含的心愿:作为人工智能的科普。哈代曾说科学(尤其是数学和理论物理,也许还有理论计算机科学)和艺术的原创需要一等的智力,解释和欣赏(例如乐评家和书评家)是二等的智力活儿。本书假想的对象是那些有能力但又是外行的人。丘成桐曾说(大意):要想做大学问,必须先培养对学问的感情。除了科普,我还希望能帮助一小撮内行人或准内行人培养感情。我尽可能地列出了相关的参考文献供进一步学习。人工智能毕竟不是超弦理论,凭着一些智力还是可以自学的。

本书写作得到白硕、陈利人、宫力、洪涛、刘江、马少平、毛德操、施水才和赵伟等诸位师友的帮助和指点,特此致谢。乌镇智库的同仁为本书提供了必要的数据,我的助理冰冰为我提供了多方面的支持,一并谢过。

第1章 达特茅斯会议:人工智能的缘起

What is past is prologue.

过去只是序幕。

——William Shakespeare(莎士比亚

1. 背景

现在一说起人工智能的起源,公认是1956年的达特茅斯会议。殊不知还有个前戏,1955年,美国西部计算机联合大会(Western Joint Computer Conference)在洛杉矶召开,会中还套了个小会:学习机讨论会(Session on Learning Machine)。讨论会的参加者中有两个人参加了第二年的达特茅斯会议,他们是塞弗里奇(Oliver Selfridge)和纽厄尔(Allen Newell)。塞弗里奇发表了一篇模式识别的文章,而纽厄尔则探讨了计算机下棋,他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨(Walter Pitts),他最后总结时说:“(一派人)企图模拟神经系统,而纽厄尔则企图模拟心智(mind)……但殊途同归。”这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。

开聊达特茅斯会议之前,先说说6个最关键的人。首先,会议的召集者麦卡锡(John McCarthy)当时是达特茅斯学院的数学系助理教授。1954年,达特茅斯学院数学系同时有4位教授退休,这对达特茅斯这样的小学校而言真是不可承受之轻。刚上任的年轻系主任克门尼(John Kemeny)之前两年才在普林斯顿大学逻辑学家丘奇(Alonzo Church)门下取得了逻辑学博士,于是跑到母校求援。这么说起来,克门尼算是图灵的师弟,他战时和物理学家费曼一起工作,还一度当过爱因斯坦的数学助理,后来一头扎在计算机研究里,和麦卡锡一起琢磨出了分时系统。他1955年在《科学美国人》杂志上写过一篇文章“把人看作机器”(Man Viewed as a Machine),介绍了图灵机和冯诺伊曼[1]的细胞自动机(最早叫“自生机”),文章的简介提到“肌肉机器”(muscle machine)和“大脑机器”(brain machine)。所谓“大脑机器”就是人工智能的另一种说法而已。克门尼最为人知的工作应该是发明了老少咸宜的编程语言 BASIC。现在估计已经没人知道 BASIC 语言发明人曾是 LISP 语言发明人的老板。克门尼是天生的官僚,后来位居达特茅斯学院数学系主任和校长,美国三里岛核电站出事时,总统委托他当调查委员会主席,这是后话。

克门尼从母校数学系带回了刚毕业的4位博士前往达特茅斯学院任教,麦卡锡是其中之一。麦卡锡后来发明的 LISP 语言中最重要的功能 Eval 实际就是丘奇的 λ 演算,而且他后半生致力于用数理逻辑把常识形式化。大家由此猜测他可能也是丘奇的学生,但其实不是,他学的压根就不是逻辑。他的老师是失去双手的代数拓扑学家莱夫谢茨(Lefschetz)。但麦卡锡对逻辑和计算理论一直有强烈兴趣,他1948年本科毕业于加州理工学院,在学校主办的 Hixon 会议上听到冯诺伊曼关于细胞自动机的讲座,后来他刚到普林斯顿大学读研究生时就结识了冯诺伊曼,在老冯影响下开始对在计算机上模拟智能产生兴趣。

{%}

麦卡锡(1927—2011)

达特茅斯会议的另一位积极的参加者是明斯基。他也是普林斯顿大学的数学博士,和麦卡锡在读书时就相熟。他的主业也不是逻辑,尽管他后来写过一本很有影响力的计算理论的书,还培养过好几个计算理论的博士,其中就有图灵奖获得者布鲁姆(Manual Blum)。布鲁姆目前和他老婆(Lenor Blum,就是实数计算模型 BSS 的 B)、儿子一家三口都在卡内基梅隆大学任教。明斯基的理论情结和丘奇关系也不大,他的老师塔克(Albert Tucker)是莱夫谢茨的学生,主要做非线性规划和博弈论,多年来担任普林斯顿大学数学系主任,出身数学世家,儿子、孙子也都是数学家。按辈分论,麦卡锡还是明斯基的师叔。塔克的另一名出色的学生后来得了诺贝尔经济学奖,他就是心灵美丽的纳什。纳什比明斯基小一岁,但比他早4年拿到博士学位,也算是明斯基的师兄了。明斯基的博士论文是关于神经网络的,他在麻省理工学院150周年纪念会议上回忆说是冯诺伊曼和麦卡洛克(Warren McCulloch)启发他做了神经网络。有人还找过他麻烦,质疑说神经网络的研究算数学吗,倒是老冯力挺说:现在不算,但很快就得算。倒是明斯基自己后来和神经网络结下梁子,那段故事见本书第5章“神经网络简史”。明斯基的熟人都认为他是无所不通的天才,他的忘年交沃尔弗拉姆(Stephen Wolfram)称,他晚年计划写本神学的书,但去世时书还没影子。

塞弗里奇被后人提及不多,但他真是人工智能学科的先驱,他在麻省理工学院时一直和神经网络的开创人之一麦卡洛克一起在维纳(Norbert Wiener)手下工作,他是维纳最喜欢的学生,但没读完博士学位。维纳《控制论》一书的第一个读者就是塞弗里奇。塞弗里奇是模式识别的奠基人,他写了第一个可工作的 AI 程序。他后来在麻省理工学院参与领导 MAC 项目,这个项目后来一分为二:计算机科学实验室和人工智能实验室。但分久必合,现在这两个项目又合并了,变成了 MIT CSAIL。顺便给女读者添点料:塞弗里奇的爷爷就是英国第二大百货店塞尔福里奇(Selfridges)的创始人。所谓“顾客永远是对的”(The customer is always right.)就出自塞尔福里奇,他本是美国人,后到英国创业,发财后老婆就死了,于是勾搭上一对匈牙利双胞胎歌舞演员,出入赌场,赔光了家业。他的故事2013年还被有意思的英国人拍成了电视剧。塞尔福里奇百货几经周转,现在的主人是美国百货公司希尔斯(Sears)。塞尔福里奇百货和隔壁的哈罗德百货支撑着牛津街的零售业,现在大概一半顾客来自中国。

信息论的创始人香农(Claude Shannon)被麦卡锡拉大旗做虎皮也请到会上打酱油。其实麦卡锡和香农的观点并不一致,平日相处也不睦。香农的硕士、博士论文都是讲怎么实现布尔代数的,当时麻省理工学院校长布什(Bush)亲自指导。博士毕业后他去了普林斯顿高等研究院,曾和数学家外尔(Hermann Weyl)、爱因斯坦、哥德尔等共事。战争中,他一直在贝尔实验室做密码学的工作,图灵在1943年曾秘访美国,和同行交流破解德国密码的经验,其间和香农曾有会晤,一起聊过通用图灵机。战后香农去英国还回访过图灵,一起讨论过计算机下棋。香农内向,从没说过这段往事,直到1982年接受一次采访时才提起。1950年香农在《哲学杂志》发表过一篇讲计算机下棋的文章,为计算机下棋奠定了理论基础。香农比其他几位年长十岁左右,当时已是贝尔实验室的大佬。

{%}

香农(1916—2001)

另外两位重量级参与者是纽厄尔和司马贺(Herbert Simon)。纽厄尔是麦卡锡和明斯基的同龄人,他硕士也是在普林斯顿大学数学系读的,按说普林斯顿大学数学系很小,他们应有机会碰面,但那时纽厄尔和他俩还真不认识。他们的第一次见面,纽厄尔回忆是在 IBM,而麦卡锡回忆是在兰德公司。纽厄尔的硕士导师就是冯诺伊曼的合作者、博弈论先驱摩根斯顿,纽厄尔硕士毕业后就迁往西部加入著名智库兰德公司。他在兰德开会时认识了塞弗里奇,并受到对方做的神经网络和模式识别的工作的启发,但方法论走的却完全是另一条路。

{90%}

纽厄尔(1927—1992)与司马贺(1916—2001)

司马贺比他们仨都大11岁(怀特海比罗素也大11岁),那时是卡内基理工学院(卡内基梅隆大学的前身)工业管理系的年轻系主任,他在兰德公司学术休假时认识了纽厄尔。司马贺后来把纽厄尔力邀到卡内基梅隆大学,并给纽厄尔发了个博士学位,开始了他们终生的合作。

纽厄尔和司马贺的合作是平等的,司马贺是纽厄尔的老师,但他们合作的文章署名都是按字母顺序纽在前司马在后,每次他们受邀去演讲,都是轮流。司马贺每次见到别人把他名字放到纽厄尔之前时都纠正。他们共享了1975年的图灵奖,三年后司马贺再得诺贝尔经济学奖。纽厄尔和司马贺代表了人工智能的另一条路线:符号派。他们后来把他们的哲学思路命名为“物理符号系统假说”。简单地说就是:智能是对符号的操作,最原始的符号对应于物理客体。这个思路和英美的经验主义哲学传统接近。他们和当时的数学系主任、第一届图灵奖获得者珀里思(Alan Perlis)一起创立了卡内基梅隆大学的计算机系,从此,卡内基梅隆大学成为计算机学科的重镇。

2. 达特茅斯会议

{%}

会议原址:达特茅斯楼

1953年夏天,麦卡锡和明斯基都在贝尔实验室为香农打工。香农那时的兴趣是图灵机以及是否可用图灵机作为智能活动的理论基础。麦卡锡向香农建议编一本文集,请当时做智能研究的各位大佬贡献文章,这本文集直到1956年才以《自动机研究》(Automata Studies)为名出版,这个书名最后是香农起的,他不想花里胡哨,但麦卡锡认为这没有反映他们的初衷。

文集的作者有两类人,一类是逻辑学家(后来都变成计算理论家了),如丘奇的两位杰出学生戴维斯和克里尼,后者的名著《元数学导论》在国内有逻辑学家莫绍揆先生的译本。明斯基、麦卡锡也都有论文录入,香农本人贡献了一篇讲只有两个内部状态的通用图灵机的文章,文集录入的一篇冯诺伊曼的论文后来开创了容错计算。文集的另一类作者几乎都是维纳的信徒,如阿什比(Ross Ashby)等,以控制论为基础。麦卡锡素不喜控制论和维纳,既不想把维纳当老大,也不愿和他见面争执,其中原因不详,或许和维纳与麦卡洛克吵翻了有关。麦卡洛克和皮茨这两位为维纳《控制论》思想贡献多多的人物,在维纳的自传里压根没被提及。麦卡锡同时又觉得香农太理论,当时他想自立门户,只对用计算机实现智能感兴趣,于是他筹划再搞一次活动。从香农后来接受的采访来看,他对维纳也没有多少尊重,他觉得自己创立的信息论和维纳一点关系也没有。但维纳却认为香农受到他的影响,香农认为维纳的这种错觉来源于维纳根本不了解信息论。

1955年夏天,麦卡锡到 IBM 打工(美国教授都是9个月工资,如果没有研究经费,夏天要自己觅食),他的老板是罗切斯特(Nathaniel Rochester),罗切斯特是 IBM 第一代通用机701的主设计师,对神经网络素有兴趣。他们两人倒是挺对脾气,决定第二年夏天在达特茅斯搞一次活动,遂说动了香农和当时在哈佛做初级研究员(Junior Fellow[2]的明斯基一起给洛克菲勒基金会写了个项目建议书,希望得到资助。美国富豪还是有文化传统的,至少知道要资助好东西,值得中国土豪的后代学习。

麦卡锡给这个第二年的活动起了个当时看来别出心裁的名字:人工智能夏季研讨会(Summer Research Project on Artificial Intelligence)。普遍的误解是“人工智能”这个词是麦卡锡想出来的,其实不是。麦老晚年回忆也承认这个词最早是从别人那里听来的,但记不清是谁了。后来英国数学家伍德华(Philip Woodward)给《新科学家》杂志写信说他是 AI 一词的原创者,麦卡锡最早是听他说的,因为他1956年曾去麻省理工学院访问,见过麦卡锡并交流过。但麦卡锡的建议书1955年就开始用“人工智能”了,人老了回忆真不靠谱。当事人都已仙逝,这事恐怕要成悬案了。其实英国人最早的说法是“机器智能”(Machine Intelligence),这大概和图灵那篇“计算机与智能”有关。

大家对“人工智能”这个词一开始并没取得完全共识。很多人认为啥事一加“人工”就变味了。纽厄尔和司马贺一直主张用“复杂信息处理”这个词,以至他们发明的语言就叫 IPL(Information Processing Language)。他们从某种意义上说偏功能学派,也就是说找到智能的功能不一定非得依靠结构相同或相似。图灵机和递归函数等价,但结构完全不同,所以他们强调“信息处理”。他们俩一开始颇不喜“人工智能”几个字。1958年,在英国国家物理试验室(NPL)召开了“思维过程机器化”(Mechanization of Thought Process)会议,达特茅斯会议的与会者麦卡锡、明斯基、塞弗里奇都参加了,此外还有致力于神经网络研究的麦卡洛克,以及英国的控制论代表人物阿什比。两位编程语言的先驱也出席了:巴克斯(John Warner Backus)发表了一篇关于他新发明的语言 Fortran 的论文,但他后来一直是函数式语言的倡导者;美国海军女少将哈泊(Grace Hopper)的文章是讲第一个编译器的,这项工作导致了 COBOL 语言的诞生。中国也有女少将,也是码农。他俩论文的题目里都有 Automatic Programming 的说法,这在当时就是指高级语言编程,不能和后来人工智能中的自动编程搞混了。这次会上有人再提“人工思维”(Artificial Thinking)的说法。司马贺等人由此也逐渐接受了 AI 的说法,他晚年还写了本书《人工的科学》,倒是把 Artificial 这个词更加放大了。

3. AI 历史的方法论

历史研究方法有基于事件的和基于课题(issue)的。纽厄尔在1981年为一本颇为有料的文集《信息研究》贡献的一篇文章“AI 历史的智力课题”走了第二条路线。他的方法也挺有意思。他把 AI 历史当作斗争史,把历史分为两个阶级、两条路线的斗争,于是历史成了一串儿对立的议题,如模拟与数字,串行与并行,取代与增强,语法与语义,机械论与目的论,生物学与活力论,工程与科学,符号与连续,逻辑与心理等,在每一议题下有进一步可分的子议题,如在逻辑与心理下又有定理证明与问题求解等。

被提到最多的是人工智能与控制论。在 Google Ngram 里试试 Cybernetics和Artificial Intelligence 两个词在 Google Books 里出现的词频,可以看出学科的跌宕起伏。

{95%}

“人工智能”与“控制论”词频对比

美国最早办的一批计算机相关的系科都创办于20世纪60年代中期,那时有些系直接叫“计算机科学系”,而有些则叫“计算机与信息科学系”,带“信息”的都有些“控制论”的背景,如麻省大学计算机与信息系的创办人就有维纳的学生阿比卜(Michael Arbib)。而密歇根大学则叫计算机与通讯科学系。这些系后来都改名叫计算机系了。而原来的图书馆系现在都纷纷改名叫信息科学系,如加州大学伯克利分校和华盛顿大学的图书馆学院都改名叫信息学院(School of Information),连“科学”都省了。但现在计算机系又有加载信息的趋势,麻省大学和加州大学尔湾分校近年又改名叫信息与计算机科学学院了。大概和现在深度学习及神经网络又峰回路转有关吧。倒是中国的学科简单,一直都有计算机和自动化之分,老死不相往来罢了。

“人工智能”这个词真正被共同体广泛认可是在十年后的1965年,在加州大学伯克利分校的欧陆派哲学家德雷弗斯(Hubert Dreyfus)发表了“炼金术与人工智能”一文之后。这篇文章一开始只是针对纽厄尔和司马贺的工作,几年后这篇文章演变成了那本著名的(或者被 AI 圈子称为“臭名昭著”的)《计算机不能干什么》一书,则是把整个 AI 当作靶子。欧陆派哲学家被人诟病数学和科学不通,但德雷弗斯有个数学家的兄弟,和他同一年在哈佛得了应用数学博士,后来又同在加州大学伯克利分校教书,是动态规划的大家,还带过神经网络的博士。哥俩一个立场。有时一个共同体的形成并不是靠内部的团结,而是靠外部的反对。有意思的是,“炼金术与人工智能”一文是德雷弗斯在兰德公司工作时写就的。司马贺后来撰文猛批德雷弗斯,说他滥用兰德公司的标签。德雷弗斯后来抱怨他在麻省理工学院和哈佛食堂吃饭,所有做 AI 的人都躲他远远的。学术争执哪儿都一样。

麦卡锡和明斯基的建议书里罗列了他们计划研究的7个领域:(1) 自动计算机,所谓“自动”指的是可编程;(2) 编程语言;(3) 神经网络;(4) 计算规模的理论(theory of size of a calculation),这说的是计算复杂性,明斯基后来一直认为计算理论是人工智能的一部分,他早期对理论问题时不时会动动手,后来一手组建了麻省理工学院的计算理论队伍;(5) 自我改进,这个是说机器学习;(6) 抽象;(7) 随机性和创见性。

麦卡锡的原始预算是一万三千五百美元,但洛克菲勒基金会只批了七千五百美元。麦卡锡预计会有6位学界的人出席,会议应该支付每人两个月的薪水一千两百美元,由此可推算出麦卡锡、明斯基当时的年薪在八千美元左右,考虑通货膨胀和购买力,大概相当于2016年的七万多美元,真不算多,现在随便一个美国大学计算机系的教授薪水都远不止这个数。这个学科真是今非昔比啊。作为对比,司马贺1949年去卡内基梅隆大学的前身卡内基理工学院担任新成立的工业管理系系主任时的年薪是一万美元。

除了那六君子外,另外还有4人也参加了达特茅斯会议。他们是来自 IBM 的塞缪尔(Arthur Samuel)和伯恩斯坦,他们一个研究跳棋,一个研究象棋。达特茅斯的教授摩尔(Trenchard More)也参与了,他后来在工业界混的时间长,少为外人所知。达特茅斯会议中一位被后人忽视的“先知”是所罗门诺夫(Solomonoff)。

和其他来来往往的人不同,所罗门诺夫在达特茅斯严肃地待了整整一个暑假。他1951年在芝加哥大学跟随费米得了物理硕士就到了麻省理工学院。但在芝加哥对他影响最大的是哲学家卡尔纳普(Paul Carnap)。有意思的是,神经网络的奠基者之一皮茨也受惠于卡尔纳普。司马贺的回忆录里也讲到自己在芝加哥时听卡尔纳普的课开始启蒙逻辑,从而开始对智能相关的问题感兴趣,但后来由于和定理证明逻辑派之间的冲突,司马贺就说自己的方法是在批判过度数学化和形式化。这么说来,人工智能的两大派——逻辑和神经网络——都发源于老卡。卡尔纳普那时的兴趣是归纳推理,这成为所罗门诺夫毕生的研究方向。所罗门诺夫后来结识了明斯基和麦卡锡,在他们的影响下研究逻辑和图灵机。达特茅斯会议时,他受麦卡锡“反向图灵机”和乔姆斯基文法的启发,发明了“归纳推理机”。他的工作后来被万能的苏联数学家柯尔莫格罗夫(Kolmogorov)独立地发明了一遍,就是现在俗称“柯尔莫格罗夫复杂性”和“算法信息论”的东西。中国的计算理论学者李明现在是这个领域的大牛,曾有专著。柯尔莫格罗夫1968年开始引用所罗门诺夫的文章,使得后者在苏联的名声比在西方更加响亮。所罗门诺夫的另一个观点“无限点”(Infinity Point)后来被未来学家库兹韦尔改名“奇点”窃为己有。目前 AI 中广泛用到的贝叶斯推理也有着所罗门诺夫的开创性痕迹。他一生并没有大富大贵,大部分时间都是在自己的咨询公司 Oxbridge(牛津+剑桥,相当于汉语俗称“清北”)拿政府(空军、海军、ARPA 和 NIH——NIH 资助了很多 AI 研究)的研究经费,那公司只有他自己一个雇员。伦敦大学皇家哈洛威学院(Royal Holloway)后来在苏联学者领导下搞柯尔莫格罗夫奖,他是第一届获奖人,并在那里兼职教授。他的学术自传1997年发表在计算理论杂志《计算机与系统科学》上。明斯基所谓 AI 孵化出计算理论的说法不无道理。

按照麦卡锡和明斯基的说法,这十个人参加了达特茅斯会议,但现在有证据表明会议还有其他的列会者。后来一直做神经网络硬件研究从而躲过 AI 几十年过山车的斯坦福大学电机系教授维德罗(Bernard Widrow)后来回忆他也去了达特茅斯并且在那儿待了一周。麦卡锡原来的计划是两个月闭门研讨,但并非所有人都对那个事那么上心。纽厄尔和司马贺只待了一周。纽厄尔后来回忆说达特茅斯会议对他和司马贺没什么影响。

尽管是“十仙过海”,但给所有人留下最深印象的是纽厄尔和司马贺的报告,他们公布了一款程序“逻辑理论家”(Logic Theorist),这个程序可以证明怀特海和罗素《数学原理》中命题逻辑部分的一个很大子集。司马贺回忆录里说自己学术生涯最重要的两年就是1955年和1956年。这篇文章后来成了 AI 历史上最重要的文章之一。

值得注意的是,“逻辑理论家”对人工智能后来的一个分支“机器定理证明”的影响并不大。哲学家王浩1958年夏天在一台 IBM-704 机上,只用9分钟就证明了《数学原理》中一阶逻辑的全部定理。当然《数学原理》中罗列的一阶逻辑定理只是一阶逻辑的一个子集。目前,一阶逻辑的机器定理证明比起20世纪50年代已有长足进展,但仍然没有高效的办法。毕竟,王浩证明的是一阶逻辑,而“逻辑理论家”只能处理命题逻辑。数学家戴维斯和哲学家普特南合作,沿着王浩的思路进一步提出了戴维斯-普特南(DP)证明过程,后来进一步发展为 DPLL。王浩对“逻辑理论家”一直持鄙视的态度,认为这是一个不专业的东西。王浩在1983年被授予定理证明里程碑大奖,被认为是定理证明的开山鼻祖。司马贺在他的回忆录里则对此表示不满,认为王浩的工作抵消了“逻辑理论家”的原创性,他们的初衷并不是要有效地证明定理,而是研究人的行为。这是后话,见第2章“自动定理证明兴衰纪”。

麦卡锡多年后回忆说:他从纽厄尔和司马贺的 IPL 语言中学到了表处理,这成为他后来发明 LISP 的基础。明斯基后来接受采访时说他对纽厄尔和司马贺的“逻辑理论家”印象深刻,因为那是第一个可工作的 AI 程序。但事实上,明斯基在当时为大会写的总结里对“逻辑理论家”只是轻描淡写。麦卡锡和明斯基明显是一伙的,会议是他们发动的,旨在创立一门新学科。但纽厄尔和司马贺却抢了他们的风头。美国20世纪50年代的学术氛围不免浮躁,这一帮人又都是年轻气盛、野心十足。

4. 会议之后

达特茅斯会议后不久,1956年9月 IRE(后来改名 IEEE)在麻省理工学院召开信息论年会,麦卡锡受邀做一个对一个月前达特茅斯会议的总结报告。这引起了纽厄尔尤其是司马贺的不满,他们认为麦卡锡只能聊,没干货,而达特茅斯会议唯一的干货是纽厄尔和司马贺的程序“逻辑理论家”。打了一圈架,最后纽厄尔和司马贺做了妥协:麦卡锡先做总结报告,但最后还是由纽厄尔和司马贺讲他们的“逻辑理论家”并发表一篇题为“逻辑理论机器”(Logic Theory Machine)的文章。明斯基认为是他的协调起了作用,但纽厄尔晚年则只对香农的邀请有印象,而司马贺的回忆录则说是大会的主席罗森布拉特和司马贺散了很长一圈步才了断。明斯基机敏异常,讲话时带幽默,但在对这段历史的重构中,却给人印象有点太“刁滑”(cynical),原因也不难猜出。研究历史有时必须得全方位,空间或时间上的接近不见得就真实。太接近时,当事人还都活着,还在一个圈子里混,不方便互相揭短。但在接近生命末期,或者功成名就,或者人之将死,或者对头已死无所顾忌,敞开了说,有时虽有夸张,但一不留神就会流露真话,纽厄尔属于后者。明斯基“刁滑”可能和他身体好有关系,偌大岁数也没不惑,觉得还有好长的路要走。

科学达人戴森(Freeman Dyson)在他的《一面多彩的镜子》一书中借鉴过伯林(Isaiah Berlin)“刺猬与狐狸”的比喻:刺猬是那些构建理论体系的人,而狐狸则是那些解决问题的人。在他眼里,爱因斯坦、哥德尔是刺猬,而费米、冯诺伊曼属狐狸。科学史有时刺猬得势,有时狐狸当道。是不是可以说纽厄尔和司马贺更像刺猬,而麦卡锡和明斯基更像狐狸呢?具体到 AI 的源头和达特茅斯会议,麦卡锡认为他和明斯基是发起人,纽厄尔和司马贺是“外人”,是搅局者。明斯基的解释是纽厄尔和司马贺一开始的出发点是心理学,这与麦卡锡和他本人的背景不符。但在随后的十年里,他本人更多地走向心理学,而纽厄尔和司马贺更靠近 AI,也没什么矛盾。麦卡锡除了和明斯基关系紧密外,和其他 AI 群体的交流并不多,在所谓其他群体中,最有影响的当属卡内基梅隆那一派了。麦卡锡晚年回忆说那时群体之间的沟通主要是通过研究生,研究生就像大佬们的大使。后来斯坦福大学、卡内基梅隆大学、麻省理工学院的学生确实互为教授,门户之见随着时间的推移逐渐被抹平了。

总之,1956年 IRE 信息论年会是个值得纪念的会议,除了纽厄尔和司马贺发表的那篇文章之外,心理学家米勒(George Miller)发表了“人类记忆和对信息的储存”(Human Memory and the Storage of Information),这是那篇著名的文章“魔力数字七”(The Magic Number Seven)的另一个版本,不知算不算一稿多发。同在此会上,伟大的乔姆斯基则发表了“语言描述的三种模型”(Three Models for the Description of Language),该文证明了有限状态句法不能表达某类语言,这是乔姆斯基分层的起源,文中引用了还没出版的不朽名著《句法结构》。乔姆斯基当时刚刚到 MIT 现代语言学系(该系后来演变为语言学与哲学系)出任助理教授并在 MIT 电子实验室做机器翻译的研究。尽管乔老爷后来是“反政府斗士”,但有点反讽的是他早期的研究经费都来自美国空军和海军。

从参与者的角度看,大家会认为这次 IRE 的信息论年会比达特茅斯会议更重要,影响也更深远。米勒回忆说,他当时直觉认识到实验心理学、理论语言学、认知过程的计算机模拟,都是一个“大家伙”里面的组成部分。这个所谓的“大家伙”就是现在的人工智能加认知科学吧。

明斯基回忆自己在达特茅斯会议期间,在纸上画了一个几何定理证明器的设计,并手动模拟证明了等腰三角形的一个定理。会后的1956年9月,IBM 招了新毕业的物理博士格兰特(Herb Gelernter)实现明斯基的几何定理证明器。麦卡锡此时受到纽厄尔和司马贺的影响,建议在 Fortran 里实现表处理语言,作为实现语言。这个项目在1959年实现后,IBM 削减了对 AI 的投入,把这个项目砍掉了,理由是 IBM 不想给人以机器可以替代人的印象。IBM 再次资助 AI 是20多年后的1983年了,现在好像 IBM 百年老店只能靠 AI 系统沃森(Watson)翻身了。

麦卡锡1958年离开达特茅斯学院去了 MIT,帮助创立了 MIT 的 MAC 项目。他和明斯基一起领导了 MAC 项目中的 AI 实验室,1962年他再次跳槽到斯坦福大学。之后明斯基又和佩珀特(Seymour Papert)合作。计算机操作系统里“分时”的概念是由麦卡锡在 MAC 项目中首创的。他回忆说当时机器太少,但等着上机的学生很多,于是就发明了分时系统。按说分时系统的贡献要比麦卡锡后来的 AI 贡献彰显得多,但麦卡锡得图灵奖可不是靠“分时”,这就像爱因斯坦得诺贝尔奖没靠相对论一样。从这个意义上 AI 有点像哲学:由此衍生出很多问题,而对这些问题的解决产生出许多子学科;一旦这些子学科独立,就不再待见 AI 了。另一个例子是卡内基梅隆大学的微核心操作系统 MACH,其最早的发源是在卡内基梅隆大学的雷蒂(Raj Reddy)搞的分布式传感网络,MACH 领导者拉希德(Rick Rashid)后来加入微软,MACH 变成微软后来操作系统的基础,他本人也变成微软负责技术的决策者之一。

现在计算机科学已成为成熟的学科,每个计算机系大都有三拨人:理论、系统和 AI。20年前的美国计算机圈子曾有一种说法:理论和系统的人互相看不起,但又同时看不起 AI 的人。AI 这几年火了,但曾几何时,AI 的人是被压迫者。哲学曾经孕育了科学,但一旦问题被确定,就分离成为单独的科学。最新的例子是逻辑学,现在的逻辑学家都在数学系和计算机系,哲学系被彻底空洞化。哲学家丹尼特(Daniel Dennett)曾说:AI 就是哲学。按照明斯基的说法,人工智能就是先锋派的计算机科学。MAC 项目孕育了计算机科学中很多原创的概念。以至于明斯基后来认为 UNIX 系统是落后的东西,因为他们丢掉了很多 Multics 中的精华。

利克莱德(Joseph Licklider)是信息时代的预言家和布道者,他20世纪60年代初期在美国国防部“先进研究项目局”(ARPA)创办“指挥与控制”(C2)办公室,后来演变为“行为科学及指挥与控制”办公室,最终变成有权有势的“信息科技办公室”(IPTO)。正是利克莱德最早想到了“人机协同”“计算机网络”“未来图书馆”等先进概念。而他的“行为科学”计划也曾资助过监控项目,不知那是不是受到奥威尔的启发。

1968年,参议院多数党领袖曼斯菲尔德对 ARPA 的资助方向不满,他认为国防部的钱不能被用于军事目的之外,非军事目的的项目应该由美国国家科学基金会 NSF 负责,ARPA 改名 DARPA,更强调“国防”。利克莱德遂于1968年离开 ARPA,去了 MIT 担任 MAC 项目负责人,统筹 MIT 的计算机科学实验室和人工智能实验室。人们认识到利克莱德的贡献太晚了,他于1990年过世。计算机科学最重要的实验室之一施乐 PARC 的创始人泰勒(Robert Taylor)曾称利克莱德是 Johnny Appleseed,这是美国18世纪到19世纪的园丁查普曼(John Chapman)的外号,他把“苹果树”的种子遍撒美国。

{%}

利克莱德(1915—1990)

20世纪70年代初期在海尔梅尔(George Heilmeirer)任内,DARPA 大砍 AI 预算。协调政府和 AI 实验室的工作变得头绪繁多,明斯基决定从 AI 实验室退位,让他刚毕业的学生温斯顿(Patrick Winston)接手。

尽管明斯基说他不喜事务性工作,但他的采访和回忆中触及的话题总是和联邦政府的资助有关。温斯顿后来回忆时说,管理一个成功的实验室要管理好三个圈的交集:出资人(主要是政府)、科学上有创建、有国计民生的价值。他试图说服几任 ARPA 的头儿别把 AI 当作一个几年一次的项目,而是长期而独立的一门学科。另外他对比了早期 ARPA 和 NSF 的不同,NSF 是20世纪80年代才开始资助 AI 研究的,且给钱少,而且都是同行评议制,结果是越有成就的拿的钱越多,但很少会有根本性的原创性贡献,ARPA 早期都是头儿们说了算,好处是如果管事的头儿们品味好,肯定会支持好东西。这一点也值得一些科技人借鉴:大型项目决策者的品味可以超越“透明计算”吗?

再说回海尔梅尔,他以 AI 不能帮助造武器打仗为理由,削减了对 AI 的大规模经费,但同时却重金资助了隐形飞机和空间武器技术,使美国在相关领域一直保持领先。ARPA 资助的这类项目要是通过同行评议是很难实施的。ARPA 几乎在同时也支持了 ARPANET,后来演变成互联网。有意思的是,海尔梅尔从 ARPA 离任后去了德州仪器(TI)做 CTO,在 TI 却大力提倡 AI。ARPA 对 AI 的资助在克柔克(Steve Crocker)手里才逐步恢复。大家知道克柔克是互联网的先驱之一。再后来的 ARPA 信息技术办公室(IPTO)的负责人中还有图灵奖获得者萨瑟兰(Ivan Edward Sutherland),也对 AI 继续投入。精英制风格的 ARPA,更适合做大型开创性项目,成功取决于少数决策者;而以民主制为基础的 NSF,历来就是小规模资助基础研究。

5. 预测未来:会有奇点吗?

司马贺1957年曾预言十年内计算机下棋会击败人。1968年麦卡锡和象棋大师列维(David Levy)打赌说十年内下棋程序会战胜列维,最后赔了列维两千块。乐观的预言总会给对手留下把柄:德雷弗斯后来每年都拿此事嘲讽 AI,说计算机下下跳棋还行,下象棋连十岁的孩子都干不过。这便宜话一直说到1997年,IBM 的下棋程序“深蓝”击败了卡斯帕罗夫。这真是“四十年太久,只争朝夕”啊。在1995年卡斯帕罗夫还在批评计算机下棋缺乏悟性(insights),但1996年时他已经开始意识到“深蓝”貌似有悟性了。而两年间“深蓝”的计算能力只不过提高了一倍而已。机器有没有悟性的边界其实就是人的解释能力的极限。量变到质变的临界点就是人的解释能力,人解释不了的东西就有悟性,解释了的东西就没有悟性。司马贺和日本计算机科学家宗像俊则(Toshinori Munakata)合写了篇解气的文章“人工智能的教训”(AI Lessons)登在《ACM 通讯》上。

当然,德雷弗斯们还可以将“计算机仍然不能干什么”加上若干个“仍然”接着批评。明斯基1968年在库布里克的电影《2001太空漫游》的新闻发布会上曾大放厥词说30年内机器智能可以和人有一拼,1989年又预言20年可以解决自然语言处理。现在我们恐怕还不能说机器翻译器令人满意吧。过分乐观的另一个原因,照明斯基自己的说法是,一门年轻的学科,一开始都需要一点“过度销售”(excessive salesmanship)。但是过头了不免被人当作狗皮膏药或炼金术。

2006年,达特茅斯会议50周年时,当时的10位与会者中有5位仙逝,活着的5位:摩尔、麦卡锡、明斯基、塞弗里奇和所罗门诺夫在达特茅斯团聚,忆往昔展未来。

{%}

2006年,会议50年后,当事人重聚达特茅斯(左起:摩尔、麦卡锡、明斯基、塞弗里奇、所罗门诺夫)

参会人之一霍维茨(Horvitz)现在是微软实验室的头目,他和他老婆拿出一笔钱在斯坦福大学捐助了一个“AI100”[3]的活动:在下面100年里各路豪杰聚会,每5年出个 AI 进展报告。第一期出版于2016年,但里面并无什么干货。

乔姆斯基晚年边做学问边做斗士。2015年3月他和物理学家克劳斯对话时被问及“机器可以思维吗?”,他套用计算机科学家戴客斯特拉(Dijkstra)的说法反问:“潜艇会游泳吗?”如果机器人可以有意识(consciousness)的性质,机器人可以被认为有意识吗?他进一步说“意识”是相对简单的,而“前意识”(preconsciousness)是困难的问题。他把 AI 分成工程的和科学的。工程的,如自动驾驶车等,能做出对人类有用的东西;科学的一面,乔老爷明显不认可。他引用图灵的话:这问题没有讨论的意义(too meaningless to deserve discussion)。当一帮奇点理论的粉丝带着正面的期望采访乔姆斯基时,他却对人工智能这个被他深刻影响过的学科没太当回事,他认为气候和毁灭性武器是比奇点更紧迫的问题。这算有意回避吧。

明斯基在2012年接受他的学生、预言家、奇点理论炮制者库兹韦尔的采访时说,他相信奇点的到来,可能就在我们的有生之年。两位“斯基”在麻省理工学院150周年纪念会上分在一个小组讨论里,却只打了下太极,并没有针锋相对。明斯基2016年1月24日在波士顿去世,据说为了等奇点,他老人家把自个儿冷冻了。

{%}

明斯基和乔姆斯基在麻省理工学院150周年纪念会上同室不操戈,并没针锋相对

参考文献指南

人工智能是一门新学科,历史的读物并不多。波登的《认知科学历史》(Boden 2008)和尼尔森的《人工智能探究》(Nilsson 2010)是两本严肃的读物。麦克达克(Pamela McCorduck)曾是费根鲍姆的御用作家,她1979年写的《能思考的机器》(Machines Who Think)一书,无论是取材还是立意,从今天的角度看都略微过时。尼尔森是人工智能学科的早期参与者,也一直是领导者之一,他多年担任 SRI 的人工智能部门负责人和斯坦福大学计算机系主任,是圈里人。

纽厄尔1981年的文章探讨了如何研究人工智能的历史,他总结了人工智能历史中不同思想的对立,他的方法也可以用来研究更广义的计算机科学,甚至可以拓展到不同科学领域和哲学。尽管这是30多年前的文章,但今天读来仍有启发。

明尼苏达大学的巴贝奇研究所是专门研究计算机科学历史的机构。主持工作的诺伯格采访了多名计算机科学家,并做了录音。这些被采访的人中也有不少人工智能学者,例如纽厄尔、麦卡锡、明斯基、温斯顿、布坎南等。听这些人的录音采访和阅读正儿八经的文章完全是两种不同的体验。采访中的语调幽默,包含了很多文章不可能有的微妙细节。除了录音采访,麦卡锡还有个西蒙斯基金会的更正式的视频采访。

雅各布森(Annie Jacobsen)的《五角大楼大脑》(Pentagon's Brain)是关于 ARPA 的详实而有趣的历史。从这本书中我们可以看到信息科技一直不是 ARPA 的主打方向,但互联网这个 ARPA 歪打正着的项目却是它最好的投资。


[1] 我故意没有在“冯”和“诺伊曼”之间加那个讨厌的点儿,因为在更多时候,查找参考文献时,他的姓是列在 V 下,而不是 N 下。

[2] 哈佛的 Fellow 还是挺值钱的,历史上人数不多,蒯因、王浩、库恩在变成正式教授之前都做过。乔姆斯基几乎在同时也是哈佛的 Fellow。

[3] AI100 活动在斯坦福有个网站:https://ai100.stanford.edu/。::: hljs-center

第2章 自动定理证明兴衰纪
第3章 从专家系统到知识图谱
第4章 第五代计算机的教训
第5章 神经网络简史
第6章 计算机下棋简史:机定胜人,人定胜天
第7章 自然语言处理
第8章 向自然学习:从遗传算法到强化学习
第9章 哲学家和人工智能
第10章 人是机器吗?——人工智能的计算理论基础
第11章 智能的进化
第12章 当我们谈论生死时,我们在谈论什么?
附录1 图灵小传
附录2 人工智能前史:图灵与人工智能
附录3 冯诺伊曼与人工智能
附录4 计算机与智能
参考文献
人名对照

阅读全文: http://gitbook.cn/gitchat/geekbook/5b5e8fd791833538d3944d9f

猜你喜欢

转载自blog.csdn.net/valada/article/details/81639728