任务环境四要素:性能、环境、执行器、传感器
环境的性质(分类方式)
a、完全可观察,部分可观察(当前状态)
在某个是简单上获取环境的完整程度vs获取环境的部分状态(如真空吸尘器和自动驾驶汽车)国际象棋是完全可观察的,因为所有的当前信息都给出来了。
b、单agent,多agent
独自运行vs同时运行(字谜游戏和国际象棋)
c、确定的,随机的
确定的环境下一个状态完全取决于当前状态和agent执行的行为,否则为随机的(真空吸尘器和自动驾驶汽车)
d、片段式,延续式
agent的经历被分成一个个院子片段,在每个片段中agent感知信息并完成单个行为,下一个片段不依赖于以前的片段,而延续式的环境当前决策影响未来(如检查次品和国际象棋)
e、静态的,动态的
环境在agent计算时会不会变化(填字游戏与自动驾驶,国际象棋应该是半动态,因为要考虑到时间的流逝)
f、离散的,连续的
环境的状态、时间的处理方式以及agent的感知信息和行为都有离散和连续之分(填字游戏和自动驾驶)