【人工智能】《人工智能技术》期末考预测考点（交流卷、预测卷）

以下所有内容仅供参考，不保证整理答案的正确性。

一、判断题（20分，20题）

1、“张三是一名计算机系的学生，他喜欢编程”的谓词公式表示为:computer (zhangsan) ^ like (zhangsan, programming)

2、正向推理是从已知事实出发,通过规则库求得结论,也称为数据驱动方式,或从底向上的方式；反向推理是从目标出发，反向使用规则，求得已知事实,或称目标驱动,自顶向下.

3、如果某节点为或节点，该节点可解当且仅当至少有一个子节点为可解节点;如果某节点为与节点，该节点可解当且仅当所有子节点均为可解节点。

4、人工智能包含机器学习，机器学习包含神经网络，神经网络包含深度学习。

5、线性回归是用来解决回归问题的，而逻辑回归是用来解决分类问题的。线性回归+阈值的缺点是：健壮性不够，对噪声敏感，因此，引入逻辑回归模型来解决分类问题。

6、只有当矩阵A的每一列都是线性不相关的，矩阵AT A才是可逆的。最小二乘法才存在唯一的最优解。

7、（贝叶斯决策理论的应用场景？）统计模式识别:用概率统计的观点和方法来解决模式识别问题

8、（最小风险贝叶斯和最小错误率贝叶斯的区别？）最小错误率只考虑了错误，最小风险贝叶斯进一步考虑不同错误所带来的损失(代价)

9、（决策面问题？）正态分布下的最小错误率贝叶斯决策，当P(wi)≠P(wj)时，决策面向先验概率小方向偏移，即先验概率大的一类占据更大的决策空间。

10、ROC 曲线中的AUC面积越接近1.0，分类器性能越好。

11、单层感知器算法能解决线性可分的问题，对于线性不可分问题不能解决。

12、（软间隔和硬间隔的区别？）软间隔SVM允许样本有一定程度的误分类。

13、（核方法的意义是什么？或者说核方法的作用是什么？）核函数只是用来计算映射到高维空间之后的内积的一种简便方法。

14、多层感知器无隐层能解决所有半平面问题，单隐层能解决凸域问题，双隐层能解决任意复杂形状问题。

15、多层感知器的隐层权值，感知器学习准则不可以用在其训练上面。（因为，隐层节点不存在期望输出）

16、RNN是一类扩展的人工神经网络，它是为了对序列数据进行建模而产生的。

17、随机森林是以决策树为基学习器的bagging算法（决策树+bagging=随机森林）

18、解决梯度消失及梯度爆炸：可使用relu等激活函数;梯度剪切；正则化等方法

19、（Relu优缺点）ReLU不容易发生梯度发散问题，但左边全部关了很容易导致某些隐藏节点永不使用。

20、留给奇妙的运气。

说明：以上所谓的判断题实际就是知识点，我自己没理解错的话，应该全是对的（放在最后说明就是想看看你在第几道的时候意识到这些判断题都是对的）

二、简答题（40分，5题）

1、什么是启发式搜索？启发信息的强度有什么影响？启发式搜索的关键是什么？启发函数中f(x)=g(x)+h(x)分别代表什么意思？用处是在哪里？
（1）启发式搜索要用到问题自身的某些特性信息,以指导搜索朝着最有希望的方向前进。（启发式搜索:在选择节点时充分利用与问题有关的特征信息，估计出节点的重要性，在搜索时选择重要性较高的节点，以利于求得最优解。）
（2）启发信息的强度：强:降低搜索工作量,但可能导致找不到最优解；弱: 一般导致工作量加大，极限情况下变为盲目搜索,但可能可以找到最优解
（3）启发式搜索的关键：关键的一步就是如何选择下一个要考察的节点
（4）g(x)为从初始节点S0到节点x已经实际付出的代价；h(x)是从节点x到目标节点Sg的最优路径的估计代价,体现了问题的启发性信息,称为启发函数；f (x)表示从初始节点经过节点x到达目标节点的最优路径的代价估价值,其作用是用来评估OPEN表中各节点的重要性,决定其次序。

2、机器学习的一般思路是什么？每一步的作用是什么？
（预处理、特征提取、特征选择，再到推理、预测或者识别。）
一般思路:获取原始数据样本集，然后进行特征提取来减少特征量，简化后序步骤的运算量，得到对应的特征后选择分类器进行训练，训练完一个分类器，新来一个样本的时候可用已经训练好的分类器进行预测。

3、监督学习和非监督学习的区别是什么？分别举出一些对应的算法。（什么是分类问题、回归问题？）
（1）（高度概括：有没有标签）监督学习:根据已知类别的训练样本，由机器从其中进行学习或者训练，从中勾画出各类事物在特征空间分布的规律性，进而对新样本进行判断; 无监督学习或聚类:由机器从未知类别的样本中进行学习(自学习)，从中发现有利于对象分类的规律。
（2）监督：分类、回归随便举例；无监督：K-means、主成分分析方法PCA、DBSCAN基于密度的聚类算法

4、什么是梯度下降法？梯度下降法的基本步骤是什么？影响梯度下降法的一些关键因素是什么？面临的问题是什么？随机梯度下降法SGD、小批量梯度下降法MBGD之间的区别？
（1）基本步骤：1）随机初始化参数值θ，2）计算梯度，3）修改参数值，4)按照3)迭代更新θ值，直至收敛或者θ值的改变小于设定的阈值。P64
（2）关键因素：初值选择，步长α的选择
（3）梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。由于有局部最优解的风险，需要多次用不同初始值运行算法。步长太大，会导致迭代过快，甚至有可能错过最优解。步长太小，迭代速度太慢，很长时间算法都不能结束。所以算法的步长需要多次运行后才能得到一个较为优的值。
（4）SGD：没有用所有的m个样本的数据，而是仅仅选取一个样本j来求梯度
（5）小批量梯度下降法是批量梯度下降法和随机梯度下降法的折衷，也就是对于m个样本，我们采用x个样子来迭代，1<x<m。

5、FDA三个基本要素，基本思想，出发点是什么、怎么做的、目标是什么？
（1）三个基本要素:1)判别函数的类型:从什么样的函数类中去求解；2)分类器设计的目标/准则，通常就是确定函数类中的某些待定参数；3)如何设计算法利用样本数据搜索到最优的函数参数
（2）首先选定判别函数类和一定的目标(准则)，利用样本集确定出函数类中的某些未知参数，使所选的准则最好。
（3）出发点:把所有样本都投影到一维，使在投影线上最易于分类。（寻找最佳投影方向）
（4）两步分类器设计:确定最优投影方向，在这个方向上确定分类阈值
（5）目标:使两类样本投影的均值之差尽可能大些，而使类内样本的离散程度尽可能小。

6、多类分类器思路是什么？（四种情况：绝对可分、成对可分、最大值判决、直接设计多类分类器）彼此之间的问题是怎么的？（结合SVM，歧义区域？）
（没去整理）

7、什么是支持向量、支持向量的概念，最大间隔准则、最优超平面？
（有待补充）
回答方法之一：就是支持或支撑平面上把两类类别划分开来的超平面的向量点，是一种监督式学习的方法，广泛的应用于统计分类以及回归分析中。
(1)引入非线性核函数的作用( 能解决的问题)
(2)SVM的目标 :找到一个超平面，使得它能够尽可能多的将两类数据点正确的分开，同时使分开的两类数据点距离分类面最远。

8、Adaboost强分类器的基本思想、基本过程是什么？
（样本的处理到权重的更新，到强分类器的合成，三个基本过程）
（1）AdaBoost算法是一种迭代的算法，对于一组训练集，通过改变其中每个样本的分布概率，而得到不同的训练集Si，对于每一个Si进行训练从而得到一个弱分类器Hi，再将这些若分类器根据不同的权值组合起来，就得到了强分类器。
（2）初始的时候，每个样本都是均匀分布，通过训练得到分类器H0，在该训练集中，分类正确的，就降低其分布概率；分类错误的，就提高其分布概率，这样得到的新的训练集S1就主要是针对不太好分类的样本了。再使用S1进行训练，得到分类器H1，依次迭代下去……，设迭代次数为T，则得到T个分类器。
对于每个分类器的权值，其分类准确性越高，权值越高。

9、为什么要提出级联分类器？级联分类器涉及的基本思想？为了解决什么样的问题？设计的基本思路
（1）在实际应用中，由于Adaboost算法存在退化现象，导致随着弱分类器个数的增加，强分类器的分类能力反而会降低，所以需要对传统的Adaboost算法进行改进。
（2）级联分类器的思想：联合多个强分类器，对非人脸采取“先重后轻”的策略，从而快速、高效的检测出人脸。
（3）“快速识别人脸，减少检测花在非人脸上的时间”
（4）将若干个强分类器由简单到复杂排列，希望经过训练使每个强分类器都有较高检测率，而误识率可以放低

10、BP算法（1）基本过程、思路、思想（简答）（2）缺点（3）特点
（1）信号的正向传播：正向传播时,输入样本从输入层传入,经各隐层逐层处理后,传向输出层。若输出层的实际输出与期望的输出不符,则转入误差的反向传播阶段。误差的反向传播：反向传播时，将输出以某种形式通过隐层向输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。
（2）(1)易形成局部极小而得不到全局最优;(2)训练次数多使得学习效率低，收敛速度慢;(3)隐节点的选取缺乏理论指导;(4)训练时学习新样本有遗忘旧样本的趋势。
（3）非线性映射能力，自学习和自适应能力，多变量系统，数据融合能力

11、什么是集成学习？Boosting和Bagging的区别？这两种方法分别从哪个角度进行考量的？对训练集的选择，组合权重、生成的顺序是什么？
（1）集成学习:使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。
（2）Boosting:个体学习器间存在强依赖关系，必须串行生成的序列化方法;串行:下一个分类器只在前一个分类器预测不够准的实例上进行训练或检验。Bagging: 个体学习器间不存在强依赖关系，可同时生成的并行化方法。并行:所有的弱分类器都给出各自的预测结果，通过组合把这些预测结果转化为最终结果。.
（3）Boosting主要关注降低偏差，Bagging主要是降低方差
（4）Boosting：各轮训练集不独立，各轮训练集与前面各轮的学习结果相关；有权重；串行生成；Bagging:各轮训练集独立，随机选择;无权重;并行生成.

三、计算题（10分，1题）

1、可信度方法
2、主观贝叶斯

四、分析题（30分，2题）

1、状态空间图
设有三枚钱币，分别处在“正”、反、“正” 状态。每次只能且必须翻一枚钱币。问连翻三次后能否达到三枚全朝上或全朝下的状态?请画出状态空间图。P70左右

2、启发式搜索系列问题
【1、爬山算法方向】
（1）爬山算法的基本思想？P62
（2）爬山算法的缺点，存在的问题？
缺点：依赖于初始状态，容易陷于局部最值点。
存在问题：局部最大；高地：搜索无法确定要搜索的最佳方向，会产生随机走动，搜索效率降低；山脊：可能会在山脊的两面来回震荡，搜索的前进步伐会很小。
（3）画出局部择优搜索(爬山算法)八数码搜索树.P65
【2、全局择优搜索(有序搜索/最好优先)方向】
（1）针对八数码问题的搜索树是怎样的？P70
（2）最好优先算法和爬山算法的区别？
【3、A*算法方向】
（1）对于八数码问题，定义不同启发函数，不同启发函数的影响是什么？
h (n)=“不在位” 的将牌数，可知至少需要移动h(n)步才能达到目标。
p(n) =将牌“不在位”的距离和,即节点n的每一个数码与其目标位置间的距离总和。p(n)较h(n)具有更强的启发性，构造的搜索树节点更少。
（2）试比较两种启发函数对结果的影响？
（3）利用两种不同的启发函数设置方式，实现八数码问题求解。P81 P83

3、博弈搜索
（1）针对给定的问题，画出极大极小搜索过程P130
（2）a-β剪枝画图P143
（3）a-β剪枝的弱点（剪枝过程中可能出现的问题）P145

4、CNN
（1）核心思想是什么（重点是池化）？分别给出相应的解释：
（2）隐层神经元个数、参数个数、连接数
（3）如何解决梯度消失和梯度爆炸？

（1）①局部感知：图像的空间联系是局部的，局部像素联系较为紧密，而距离较远的像素相关性则较弱，神经元只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。
②权值共享：所有神经元的参数共享，共享的参数可以看作是一个卷积核。
③多卷积核：提取多种特征，特征提取可能更充分。
④空间下采样：利用图像局部相关性的原理，对图像进行子抽样，可以减少数据处理量同时保留有用信息。
（2）神经元个数=feature map大小计算方式：（图像大小-卷积大小）/步长+1给定n种卷积核，可得到n个feature map …
（3）使用更合适的激活函数: relu、 leakrelu、 elu等激活函数;梯度剪切;正则化等

后记（考后回顾）

多的就不说了,用两张图表达我偶尔泛滥的完美主义情结所导致的小失落：
在这里插入图片描述

期末考试什么的去看自己老师的课件和画的重点（记得老师画重点课要录音，多听听），我这种博客看看就好…

最后再放一张图：
在这里插入图片描述

Vivid-victory

发布了86 篇原创文章 · 获赞 83 · 访问量 3万+

私信关注