原

智能Agent笔记

2015年08月16日 20:31:49 LXYTSOS 阅读数：3140 更多

																											<div class="tags-box space">
							<span class="label">所属专栏：</span>
															<a class="tag-link" href="https://blog.csdn.net/column/details/nnmlnotes.html" target="_blank">神经网络与机器学习笔记</a>
															
						</div>
																</div>
			<div class="operating">
								</div>
		</div>
	</div>
</div>
<article class="baidu_pl">
	<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">
							<div class="article-copyright">
              					<svg class="icon" title="CSDN认证原创" aria-hidden="true" style="width:53px; height: 18px; vertical-align: -4px;">
						<use xlink:href="#CSDN_Cert"></use>
				</svg>
              					
				版权声明：本文为博主原创文章，未经博主允许不得转载。					https://blog.csdn.net/LXYTSOS/article/details/47705915				</div>
							            <div id="content_views" class="markdown_views prism-atom-one-dark">
						<!-- flowchart 箭头图标 勿删 -->
						<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>
						<p>理性Agent：追求尽可能好的行为表现。Agent表现如何取决于环境的本质。</p>

Agent通过传感器感知环境并通过执行器对所处环境产生影响。

Agent的感知序列是该Agent所收到的所有输入数据的完整历史。一般地，Agent在任何给定时刻的行动选择依赖于到那个时刻为止该Agent的整个感知序列，而不是那些它感知不到的东西。从数学角度看，我们可以说Agent函数描述了Agent的行为，它将任意给定感知序列映射为行动。

理性Agent是做事正确的Agent。考虑Agent行动的后果。当把Agent置于一个环节中后，它针对收到的感知信息生成一个行动序列。这个行动序列导致环境经历一系列的状态变化。如果该系列正是渴望的，那么这个Agent性能良好。这里的渴望，通过性能度量表述，它对环境状态的任何给定序列进行评估。

理性：
任何指定的时刻，什么是理性的判断依赖于以下4个方面：
1、定义成功标准的性能度量。
2、Agent对环境的先验知识。
3、Agent可以完成的行动。
4、Agent截止到此时的感知序列。

  
  
   
   1
   
   2
   
   3
   
   4
   
   5
   
   6

从而得到理性Agent的定义：

对每一个可能的感知序列，根据已知的感知序列提供的证据和Agent具有的先验知识，理性Agent应该选择能使其性能度量最大化的行动。

需要小心区别理性和全知的概念。一个全知的Agent明确地知道它的行动产生的实际结果并且做出相应的动作；但全知者在现实中是不可能的。

此定义不仅要求理性Agent收集信息，而且要求Agent从它所感知的信息中尽可能多的学习。Agent最初的设定可能反映的是环境的先验知识，但随着Agent经验的丰富这些知识会变改变或者增加。在一些极端的情况中环境完全被当成先验知识。在这样的情况下，Agent不再需要感知和学习；它只要正确地行动。当然这样的Agent是脆弱的。

Agent依赖于设计人员的先验知识而不是它自身的感知信息，这种情况我们会说该Agent缺乏自主性。

任务环境的性质

完全可观察的与部分可观察的：如果Agent的传感器在每个时间点上都能获取环境的完整状态，那么我们就说任务环境是完全可观察的。如果传感器能够检测所有与行动决策相关的信息，那么该任务环境是有效完全可观察的；而相关的程度则取决于性能度量。

确定的与随机的：如果环境的下一个状态完全取决于当前状态和Agent执行的动作，那么我们说该环境是确定的；否则，它是随机的。

静态的与动态的：如果环境在Agent计算的时候会变化，那么我们称该Agent的环境是动态的；否则该环境则是静态的。

AI的任务是设计Agent程序，它实现的是把感知信息映射到行动的Agent函数。假设该程序要在某个具备物理传感器和执行器的计算装置上运行——我们称为体系结构。
Agent=体系结构+程序

基于模型的反射Agent
Agent应该根据感知历史维持内部状态，从而至少反映出当前状态看不到的信息。
关于“世界如果运转”的知识——无论是用简单的布尔电路还是用完备的科学理论实现——都被称为世界模型。使用这种模型的Agent被称为基于模型的Agent。

基于目标的Agent
除了当前状态的描述，Agent还需要目标信息来描述想要达到的状况。搜索和规划是寻找达成Agent目标的行动序列的人工智能领域。

反射Agent看到刹车灯时就刹车。而基于目标的Agent原则上会推理，，如果前面车辆的刹车灯亮起，则它要减速。

基于效用的Agent
在目标不适当的两类情况中，一个基于效用的Agent仍然可以做出理性决策。第一，当多个目标互相冲突时，只有其中一些目标可以达到时，效用函数可以在它们之间适当的折中。第二，当Agent有几个目标，但没有一个有把握达到时，效用函数可以根据目标的重要性对成功的似然率加权。

Agent 智能Agent笔记

智能Agent笔记

猜你喜欢