观色知喜怒：麻省理工成功开发情绪解读机器学习模型

麻省理工媒体实验室的研究人员开发出一种机器学习模型，它能让计算机像人一样自然地解读我们情绪。该模型能更好地捕捉细微的面部表情变化，从而更好地判断情绪。通过额外的数据训练，该模型在全新的人群中也能达到相同效果。

在不断发展的「情感计算」领域，用于分析面部表情、解读我们的情绪、并做出相应反应的机器人和计算机不断被开发出来。例如一些应用，包括：监测个人健康、观察学生上课的兴致、辅助诊断疾病病征，以及开发陪伴型机器人。

由于各种因素，人们表达情感的方式完全不同，这给情感计算带来一大挑战。文化、性别和年龄的不同，造成了这种普遍的差异。但其它的差异则更为细致：时间、睡眠状况、甚至你对交谈对象的熟悉程度，都会导致你在特定时刻表达快乐或悲伤的方式发生细微的变化。

人类的大脑可以本能地捕捉到这些偏差，但机器却不行。近年来，深度学习技术的发展帮助人们理解了其中的微妙之处，但这些技术在不同的人群中仍不准确且适应性不强。

媒体实验室的研究人员现已开发出一种机器学习模型，它在捕捉这些细微的面部表情变化时超越了传统系统。为了更好解读情绪，已在该模型上训练了数千张人脸图像。此外，通过额外的数据训练，这个模型在全新的人群中也同样有效。其目的是改进现有的情感计算技术。

「它以不引人注目的方式来监控我们的情绪，」Oggi Rudovic 说：「如果想让机器人具有社会智能，就必须让它们像人一样自然地对我们的情绪作出反应。」Oggi Rudovic 是媒体实验室的研究员，也是此论文的合著者，该论文上周在 MLDM（机器学习与数据挖掘）会议上发表。

论文的共同作者有：第一作者 Michael Feffer，电气工程和计算机科学的本科生；Rosalind Picard，媒体艺术与科学的教授，情感计算研究小组的创始人。

个性化的『专家』

传统的情感计算模型采用「一刀切」的概念。他们训练一组描述各种面部表情的图像，优化特征——比如微笑时嘴唇如何卷曲——并把这些特征映射到一组全新的图像中。

而在本文的研究中，研究人员将「多专家模型」(MoE) 技术与模型个性化技术结合在一起，这种技术有助于从个体中挖掘出更细粒度的面部表情数据。Rudovic 说，这是首次将两种技术结合到一起进行情感计算。

在「多专家模型」中，许多被称为「专家」的神经网络模型被训练成专门处理一个单独任务并产生一个输出。研究人员还加入了一个「门限网络」，计算出哪位「专家」能最好地检测到未被发现的受试者的情绪。Feffer 说：「网络基本可以区分个体，并指出『这是给定图像的正确专家』。」

在他们的模型中，研究人员通过将每个专家与 RECOLA 数据库中 18 个独立视频记录中的一个进行匹配，从而对 MoEs 进行个性化设置。RECOLA 是一个公共数据库，内容是人们为情感计算应用设计的视频聊天平台上的对话。他们用 9 个实验对象训练该模型，并在其他 9 个实验对象上进行评估，所有的视频都被分解成单个的帧。

每个专家和门控网络都在残差网络（ResNet，用于分类的神经网络）的帮助下跟踪每个人的面部表情。在此过程中，模型根据情绪效价（高兴或难过）和情绪唤醒（兴奋）程度——对不同情绪进行编码的指标——对每一帧进行评分。另外，六名人类专家给每一帧情绪效价与唤醒做了标注，标注打分范围从-1（低）到 1（高），此模型也会被用于训练。

然后研究人员进行了进一步的模型个性化实验，在实验中，他们喂给模型的数据是剩余视频的部分帧，然后用视频中未出现过的帧来测试模型。结果显示只有 5% 到 10% 的数据来自新人群，这个模型在很大程度上优于传统模型——即它在未出现的图像上对情绪效价和唤醒的评测水平更接近人类专家的标注。

「这显示了模型在数据很少的情况下，从人群到人群或者从个人到个人的适应能力。」Rudovic 说，「这是关键，当出现新的人群时，必须要有方法来解释数据分布的变化（微表情变化）。一个模型分析一种文化下的表情时，它也需要适应不同的文化。如果不考虑这种数据转移，模型就会表现不佳。但如果只是从一种新的文化中抽取一些样本来适应我们的模型，那这些模型可以做得更好，尤其是在个人层面上。这就是模型个性化最重要的地方。」

当前可获得的情感计算研究数据在肤色方面不够多样，因此研究者的训练数据受到限制。如果可以获得更多样的数据，训练后的模型就能用于更多元的人群。Fetter 表示，下一步就是在「一个包含多元文化的更大数据集」上训练模型。

更佳的人机交互

研究者表示，另一个目标是训练模型，帮助计算机和机器人从少量变化的数据中自动学习，以更自然的方法对人的情感进行检测，从而更好地满足人类需求。

例如，它可以在计算机或移动设备中运行，跟踪用户的视频对话，学习不同背景下微妙的面部表情变化。Feffer 说，「你可以根据智能手机或网站来了解人们的感受，推荐应对压力或痛苦的方法，并找出对他们生活产生负面影响的其它东西。」

另外，这也有助于监测抑郁症或痴呆症，因为人们的面部表情会因为这些情况而发生微妙的变化。Rudovic 说，「我们可以通过长期监控用户的表情来为他们定制个性化模型，并监控他们每天有多少偏差——偏离了面部表情的平均水平——并将其用作健康和幸福的指标。」

Rudovic 说，比较有前景的应用是人机交互，如个人机器人或教育机器人，机器人需要适应评估很多人的情绪状态。例如，有一种版本被用来帮助机器人更好地解读自闭症儿童的情绪。

Roddy Cowie 是贝尔法斯特女王大学心理学名誉教授，同时也是一位情感计算学者，他表示，MIT 的研究「说明了这个领域的研究现状」。「我们正慢慢打造一个系统，这个系统可以从面部照片判断出人们的情绪，从非常积极到非常消极，从非常主动到非常被动。直观说来，一个人给出的情感信号与另一个人的不同，因此当我们使情感识别个性化时，它能更好地工作，这很有意义。个性化方法反映出另一个有趣的点，即训练多个『专家』并综合它们的判断比训练一个单独的超级专家要更加有效。二者合在一起可以构成一个令人满意的组合。」他说。

产业麻省理工机器学习人机交互

猜你喜欢