复旦大学张军平-爱犯错的智能体-读书笔记

1.动态阴影：在人工智能和计算机视觉领域，基于静态阴影的研究相对多些，但基于阴影的变化来估计目标的距离、形状、运动速度等的文章则少了很多。考虑到他能提供的丰富辅助信息，相信未来会有更多的学者会把动态阴影的分析加入到人工智能的研究中。–爱犯错的智能体-五
2.除了两个同化，深度学习对预测性能的追求也存在隐忧，那就是稳定性和可解释性。–童话(同化)世界的人工智能–张军平
3.虽然流形学习在认知、机器学习方面都有很好的可解释性，不过这几年随着深度学习的盛行，与它相关的文献在相对份量上正慢慢减少。一个原因是，由于这一波人工智能的热潮主要是产业界开始的，而产业界对预测的重视程度远高于可解释性。所以，不管学术界还是产业界都把重心放到如何通过优化深度学习模型的结构和参数优化去了。正如我之前强调过的，过分关心预测性能的同时，必然会牺牲可解释性。因为前者关心个例，后者需要统计。两者是一个矛盾，类似于测不准定理中的速度和位置的关系。从目前的情况来看，牺牲的可能还不止流形学习这一种具有可解释性的方法。尽管大家在讨论数据的时候，还会时不时说下流形，但最多也只是扔个概念出来，并没有太多实质性的融入。—爱犯错的智能体-七
4.从颜色的传授还能看到，人对颜色甚至知识的学习似乎是从具体到抽象逐渐过渡的，而不会一开始就接触非常抽象的概念。如果想建构一个拟人的智能体，是否也应该遵循这一规范呢？是否不应该从相对于视觉更为抽象的自然语言处理开始着手呢？—爱犯错的智能体—视觉篇(九)
5.人的视觉对边缘的反应也有自举的表现。图4左图是一组光的强度按宽度逐渐变化构成的。将其强度的柱状图画出来，就象一组台阶。然而，有实验表明，人在感知时，会在两个相邻的强度级的连接处产生“感受到”的向上和向下的强度变化，称之为“马赫效应”，可以称其为伪边缘。这种伪边缘的出现，可拉开相邻目标或前景、背景之间的差异，使轮廓会变得更清晰，继而能帮助人类更好地区分目标和背景或其他目标。–爱犯错的智能体—视觉篇(十)
6.基于这个观察，科学家们推测如果要提高人工智域很关心的可解释性，最直观的策略是将原空间的数据变换至一个能让特征数量变得极其稀疏的空间。但天下没有免费的午餐，有稀疏必然意味着在某个地方付出稠密的代价。这就是在2000年左右提出的压缩传感(Compressive Sensing)或稀疏学习理论的主要思想。值得一提的是，完善压缩传感理论的贡献人之一是据说智商高达160、拿过菲尔兹奖的华裔数学家陶哲轩。该理论最有意思的一点就是把基函数变成了一个如高斯分布形成的随机噪声矩阵，在这个矩阵里，每个点的分布是随机、无规律的，因而可以视为稠密的。通过这样的处理，一大批压缩传感或稀疏学习方法被提出，并获得了不错的稀疏解。
不管采用哪种方法，傅里叶、小波还是稀疏学习，都能看出类似于时间换空间、两者不可能同时完美的影子。这种情况可以视为人工智能领域在时空/时频意义下的“海森堡(Heisenberg)不确定原理”。–爱犯错的智能体—视觉篇(十一)
7.在听觉系统和视觉系统收集的信息存在相互矛盾时，人类会优先相信视觉通道传输进来的信息。因为与视觉系统相比，听觉系统获得的信息没有那么强的确定性。他们将这一现象称“麦格克效应”(McGurk effect)。该成果发表在1976年的《自然》杂志上。随着研究的深入，科学家们发现这种视听觉相互影响的“麦格克效应”在很多方面都有体现。如儿童早期发音的学习上。如果视觉和听觉没有得到好的整合，儿童就容易产生错误的发音。另外，视力不好的人，如果摘下眼镜，也很可能出现“麦格克效应”，会感觉自己的听力也同时下降了。—爱犯错的智能体 — 听觉篇(十三)：视听错觉与无限音阶中的拓扑
8.听觉反过来会促进视觉上的感知。我们在观赏影视作品时经常能感受到。比如在家看恐怖电影时，一到令人发悚的情节，胆小点的就会情不自禁把音量关小或干脆把耳机拿下来，说明视听觉的双重作用确实增强了影片的恐怖程度。另外，在音乐中，还有个奇怪的旋律。他通过两个或多个声部的交替，能产生无穷递进的感觉，让人误以为声音一直在往高处走。这就是谢帕得音阶(Shepard tone)，也称为无限音阶。有趣的是，这种循环，我们不仅能在音乐中看到，还能在很多方面见到类似的。比如艺术作品中，前面提到过的荷兰著名画家艾舍尔就画过一系列无限循环的作品。如图3所示的水的循环流动、楼梯的“循环”、还有画里画外的蜥蜴。这些都是现实世界不可能实现的无限循环。— 听觉篇(十三)：视听错觉与无限音阶中的拓扑
9.拓扑学的研究在计算机图形学方面有着异常重要的地位，因为图形学里涉及的结构变形、几何结构分析上都离不开它。但是在人工智能里怎么使用拓扑呢？与图形学不同，人工智能中有的主要是数据。每个数据点都是离散的、有噪的。如果直接利用拓扑学的概念，并不好处理，因为Betti数的估计需要连续的结构。不过幸运地是，数学家们发明了一套新的办法来研究数据中的拓扑，叫持续同调(Persistent Homology)。需要提醒的是，仅用拓扑结构来构造目标识别系统是有风险的。比如带把手的咖啡杯和实心甜甜圈这种人一眼就能区分的目标，从拓扑学家的角度来看却是分不清的。更重要的是，将这类方法用于高维数据分析还存在一个问题：这些基元指标如Betti数是基于人对三维空间的直觉来获得的；至于高维空间是否还存在一些特别的基元，人类还无法感知。也许存在更复杂的高维基元，只是无法感知和想象而已。要解开这个难题，或许和解开彭罗斯超弦理论中隐藏的高维结构一样的困难。所以，单纯依赖拓扑结构来完成人工智能中常常面临的预测任务，现阶段很有可能会陷入与“量子计算用于人工智能”一样、看上去很美的尴尬境界，因为“不是不好，时辰未到”。— 听觉篇(十三)：视听错觉与无限音阶中的拓扑
10.在外语学习方面，有一个比较有趣的拐点错觉，即12岁以前学习外语往往被认为是黄金时期。夸张地讲，儿童在全英文环境下获得的英文提升能力的效率，大概是成年人在相同环境下的六倍左右。这似乎与直觉有些相悖，因为成人的学习能力、学习方法、注意力都能做得更有效。如果比较下当今人工智能对新模式的学习策略，就能发现，多数是在模拟终段的学习。不管是零样本学习(zero-shot)、少量样本学习(few-shot)、迁移学习(transfer learning)还是领域自适应(domain adaptation)，它们都假定了有某一已知的、（接近）固化的结构在其中，或是分布、或是几何结构、或是其它某种假设。如果能研究下人类智能中段的学习模式，说不定能让目前极容易固化的机器智能得到更强的可塑性。----爱犯错的智能体 — 语言篇（十五）：可塑与多义
11.既然人类智能体普遍具有快和慢两种思维方式，人类还有独特的顿悟能力。而且顿悟的最终迸发似乎又是一种接近快思维的方式。那么，我们现有的人工智能模型有没可能复制这些机制呢？如果只考虑预测性能，人工智能模型的“慢”的思维方式在某些领域确实已经占了上风。2017年以来各大人工智能顶会上的论文投稿数量巨增，人脸识别、图像检索领域的识别率已优于人类的能力，这些都可以佐证人工智能在利用复杂模型进行预测的方面有了明显的突破。但是，“快”的思维方式这块则还有明显的差距。其原因一是缺乏人类学习的可塑性。结果，人工智能模型只能沿着固化的模型结构来完成指定任务。二是缺乏对“不同结构、不同模态的网络之间的联系”的学习。三是未考虑认知错觉或直觉统计学的可借鉴性。除了顿悟和认知错觉，智能体还有什么感觉也可能以浅层思维或快思维模式为主呢？—爱犯错的智能体（十七）：灵光一闪与认知错觉
12.现有机器遗忘内容的方法与人类及其他非人智能体的处理有本质区别。因为机器的“遗忘”是为了适应新数据的分布，而不会考虑保留的信息对回忆、情感的意义。而人类保留信息的目标并非完全是为了适应新的数据分布，而是用这些片段来帮助自己回顾个人的人生、体会曾经的酸甜苦辣。这些都造成了人与机器的本质性区别，即机器缺乏对真实情感的需求。所以，机器遗忘机制在方法论上隐含的假设应该是：机器不需要回忆，他只需要按人类既定的指标要求，实现精准预测即可。----爱犯错的智能体(十八)：情感与回忆错觉
13.回忆错觉的一种，称为曼德拉效应（英语：Mandela Effect），是指很多人都发觉对同一事物的记忆与事实有出入的现象。一种可能的解释是人在删除信息后，重建的时候更容易将记忆的与最紧密相关但不一定正确的内容联系，并还原完整的信息。----爱犯错的智能体(十八)：情感与回忆错觉
14.我不怀疑现有的人工智能模型可以以足够高的精度来预测智能体的情感状态，但我比较怀疑这些模型是否能真正明白什么是情感？什么是回忆？如果在建模时，缺乏从直觉情感到深层次情感的递进建模过程，缺乏形成智能体个体与众不同的多样性，那么还原出来的情感也只能是机器的机械表现。也许，我们可以考虑重拾“观察”这个古朴的研究方法，去深入了解情感的发育，比如儿童的情感发育。考虑到人类儿童期过于漫长，也可以观察下最能理解人类情感、成熟又比较快的宏物狗的情感、常识发育。----爱犯错的智能体(十八)：情感与回忆错觉
15.不论采用的是哪种方法，从本质上都有一个隐含假设在其中。既认为个体的活动具有随机性，但纳入群体后，最终这种局部或个体的随机性可以收敛到全局平衡有序的环境。基于这一假设，以上提及的非人智能群体智能、微观群体算法和遗传算法常被用于目标的寻优，目的是为了帮助需要迭代求解或梯度寻优的算法获得最优解。需要注意的是，由于这类算法或多或少都带有比较强的启发式，因此不太容易找到好的理论性证明，如数学家们偏好的存在性、收敛性和唯一性等以及统计学家偏好的泛化界。即使有一些理论性的证明，也只是在给了较多假设条件后的有限结论。尽管如此，这类方法在工程上仍然形成了不少好的应用成果。----爱犯错的智能体(十九) – 群体智能与错觉
16.如果分析以上这些群体智能学习，不难发现，这些群体算法要么是针对某个目标的优化来考虑的，要么是针对某个目标的预测来实施的。研究非人智能体的群体算法时，科学家们着重观察的现象似乎主要与其群体的生存密切相关。反观人类，在成了地球主宰后，早已不再仅仅满足于生存需求，还衍生了生理、安全、社交、尊重和自我实现共五个层次的需求，被称为马斯洛需求层次理论。而这些高层次的需求在人工智能的学习中却很少被涉及。如果要研究人工智能，必然要考虑人工智能体形成社会和群体、而非个体时的情况。那我们不妨看看，人类智能体在生存需求以上，群体生活时会存在哪些错觉。如果人工智能体希望模拟人的群体行为，也许就能从这些错觉中得到一些经验的借鉴。----爱犯错的智能体(十九) – 群体智能与错觉
17.比如马路上突然有人打架，于是路人们会一拥而上，观战拿手机发朋友圈。这是信息论下“对知识的渴求”表现出来的群体本能反应。可是假如不是打架，而是刑事事件时，旁观者愿意主动施救的反而可能变少，尤其是在人来人往的场所。这是因为当在场的人太多时，帮助的责任就被大家平分，平分到连旁观者都意识不到，以至于给人造成了“集体冷漠”的感觉。这不是信息量在起作用，而是责任分散效应的群体错觉。我国的“三个和尚”故事中讲的“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝”，就是责任分散效应的体现。----爱犯错的智能体(十九) – 群体智能与错觉
18.有人期望通过群体的力量获得集成学习般的性能提升。然而，“物以类聚、人以群分”，即使现代社会也是如此，如朋友圈中的五花八门的群，常是因某一方面的共性而形成的群体。在这种群体时，执异见的更容易被孤立而非接纳。不仅群体有排斥现象，甚至有时还会有智商、情商的拉低效应。比如如果参加传销团体，人会不由自主失去自我意识，导致本应正常的智商无法表现，变成智力水平低下的生物。这些现象是群体的拉平错觉。----爱犯错的智能体(十九) – 群体智能与错觉

复旦大学张军平-爱犯错的智能体-读书笔记

猜你喜欢