从Deepmind最新成果DreamerV3启发的通用AI技术分析

一、背景

本文系个人观点：错漏在所难免，仅供参考

北京时间 1 月 12 日，DeepMind 官方推特发文，正式官宣 DreamerV3，这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据，就能从头开始收集钻石的通用算法，解决了 AI 领域中的又一重要挑战。英伟达 AI 科学家 Jim Fan 表示，和 AlphaGo 下围棋比，我的世界任务数量是无限的，环境变化是无限的，知识也是有隐藏信息的。
早在 2019 年夏天，Minecraft的开发公司就提出了「钻石挑战」，悬赏可以在游戏里找钻石的 AI 算法，直到 NeurIPS 2019 上，在提交的 660 多份参赛作品中，没有一个 AI 能胜任这项任务。
但 DreamerV3 的出现改变了这一现状，钻石是一项高度组合和长期的任务，需要复杂的探索和规划，新算法能在没有任何人工数据辅助的情况下收集钻石。或许效率还有很大改进空间，但 AI 智能体现在可以从头开始学习收集钻石这一事实本身，是一个重要的里程碑。
参考：
DeepMind 发布强化学习通用算法 DreamerV3，AI 成精自学捡钻石

DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练，且不共享梯度的神经网络组成：
1、world model：预测潜在动作的未来结果
2、critic：判断每种情况的 value
3、actor：学习如何使有价值的情况成为可能
在这里插入图片描述
从之前下围棋的Alphazero到现在Minecraft中挖钻石的DreamerV3，其技术发展脉络是怎样的？相互之间是什么联系呢？

二、通用AI的本质

从下围棋的Alphazero到现在Minecraft中挖钻石的DreamerV3，个人认为本质都是相同的，都遵循Yang lecun的通用世界AI模型。
在这里插入图片描述

其核心包括World model，Critic，Actor三部分。
DreamerV3向这个通用世界AI模型的映射很自然。因为它的核心就包括了world model，Critic，Actor三部分。
Alphazero是否也和这个通用世界AI模型一致，如果一致，那么它的模型怎么向这个通用世界AI模型映射呢？

三、Alphazero和通用AI的关系

如图所示。
Alphazero和通用世界AI模型的关系主要包括两点：

在Alphazero中，世界模型相当于围棋棋盘、棋子、行棋规则的表示。
在alphazero中Critic加入了蒙特卡洛树MCT的评分，使得Critic的评分向蒙特卡洛树MCT不断靠拢，加速了Critic网络的收敛。

四、未来通用AI的思考

通用AI核心包括World model，Critic，Actor三部分。其要点包括：

World model需要考虑场景的高层抽象编码表示；高层抽象编码在训练过程中会和场景高度依赖，但它是通过训练自动生成的抽象编码，并不需要人工干预。结合Short-term memory可形成历史记录；
critic需要结合特定场景融入特定经验(比如，对弈领域的MCT，XX领域的XXX)，可加速Critic网络收敛时间。

整体来看框架是通用的，但其训练结果是面向特定领域的，依赖reward的奖励，训练好的模型其world model、critic网络都是由reward决定的。
在这里插入图片描述