数据挖掘：理论与算法

在数据科学，DRIP是什么的缩写（不含标点符号）？

Data Rich Information Poor

“教育不是灌输，而是点燃火焰” 这一思想出自于：

苏格拉底

如何学好数据挖掘技术？

认真学习慕课视频,
充分利用课后阅读材料,
勤于动手，实践出真知
[ ] 死记硬背、眼高手低
主动思考，知其然，知其所以然

在实际数据分析工作中，数据类型转换和数据自身的错误是面临的主要挑战之一。[√]
大数据和传统数据分析相比，核心特征就是数据量大。[x]

在超市环境中对客户位置轨迹进行记录和分析的主要目的有哪些？

对拥挤人群进行预警
优化商场布局
防盗
个性化营

出视频中介绍的IBM公司的商用数据分析软件的名称。【SPSS】

理想的数据挖掘工作成果应当：

-interesting
Well Known
-Useful

Hidden

ETL系统的主要作用包括：

数据提取
数据转换
数据分析
数据装载

假设目标客户占人群的5%，现根据用户模型进行打分排序，取1000名潜在客户中排名前10%的客户，发现其中包含25名目标客户，问此模型在10%处的提升度是多少？【5】

以下最有可能涉及代价敏感分类问题的是：

区分猫狗图片
社交网络好友推荐
手写体识别
-银行信用卡评分模型

在ROC分析中，分类器的性能曲线的理想状态是：

对角线（AUC等于0.5）
越靠下越好（AUC趋近于0）
越靠上越好（AUC趋近于1）

混淆矩阵中False Negative的含义是：

被错误地分为正类的样本
被正确地分为正类的样本
被错误地分为负类的样本
被正确地分为负类的样本

线性回归模型由于自身的局限性只能描述变量间的线性关系。【√】

GIGO是什么的缩写（不含标点符号）？

garbage in garbage out

聚类与分类的主要区别在于：

数据有无标签

有效的数据挖掘工作需要哪些因素的支持？

高质量的数据
合适的算法模型
强悍的计算平台
丰富的领域知识

CPU作为高性能计算设备的优点包括：

低成本
高计算密度
可独立使用
安装便捷

云计算领域中的SaaS指的是：

软件即服务

计算的核心特征是什么？

Pay As You Go

以下哪条描述体现了并行计算的思想？

人多力量大，众人划桨开大船

在隐私保护的问卷调查中，针对两个互补问题，用户也可用Yes/No回答，与用True/False本质上是一样的。【√】

如何才能最有效采集到用户可能不愿公开提供的信息？

随机问卷题目随机问卷题目 - 正确

针对数据挖掘领域，以下哪个观点是正确的：

You cannot be too careful!

两个变量X和Y呈现负相关性，说明：

然而并不能说明什么
以下哪条描述最贴近幸存者偏差现象？
盲人摸象盲人摸象
彩票号码难以预测的原因在于：
号码的纯随机性

短期股票价格波动难以精准预测的主要原因在于现有模型本身不够精密。【x】

以下关于数据预处理的描述正确的是：

需要借助领域知识
数据挖掘工作的基础性工作

小张的个人信息中身份证号倒数第二位是单数，性别为女。这种情况被称为：

Missing Data
Inconsistent Data
Noisy Data
Redundant Data

以下针对缺失值问题的阐述正确的是：

删就一个字
用均值填充即可
用中位数填充即可
具体问题具体分析

假设男生用1表示，女生用0表示，某人的性别未填，应该如何处理？

填1
填0
填均值0.5，必须的
可根据其它信息（如身高、体重）推测

学生小明在调查问卷中没有回答下述问题：“你去年的工资收入和前年相比是否有所增加？” 对这种情况最恰当的描述是

完全随机缺失
N/A
数据未提供
不正确异常数据

以下关于离群点（Outlier）和异常点（Anomaly）关系的论述正确的是：

一回事，说法不同而已
离群点一定是异常点
异常点一定是离群点
不能简单判定

关于离群点的判定：

主要看其与近邻的平均距离
主要看其与近邻的最大距离
需要考虑相对距离因素
主要靠感觉

采用LOF方法进行离群点检测时：

LOF值越小越疑似离群点
LOF值越大越疑似离群点
LOF值越接近1越疑似离群点
LOF值越接近0.5越疑似离群点

CaseA：两人名字不同，身份证号相同。CaseB：两人同名同姓，身份证号不同。

A为重复数据可能性大
B为重复数据可能性大
我读书少，看不出什么区别

在记录手机号码的时候，相对而言：

前三位不容易记错
末尾三位不容易记错
中间三位不容易记错
都一样

在记录英语国家人名时：

O姓容易写错√
O名容易写错
O没有明显区别

对英语国家的人群而言：

●姓的区分度大√
O名的区分度大
O没有明显区别

按A，B，C，D打分的考试成绩数据属于：

数值型（连续）
数值型（离散）
·序数型（Ordinal）·
标称型（Nominal）
字符串

在对标称型数据（如颜色、职业等）进行编码时：

√·按1，2，3，4..顺序编码即可·
O类别较少时，可考虑采用扩维法
0不同编码可能会影响数据的空间分布
口不好处理，删了算了

在大数据分析中，利用采样技术可以：

降低获取数据的成本
减少需要处理的数据量
0有助于处理不平衡数据
旦提高数据的稳定性

对于极度不平衡的二分类数据集，应特别注意：

整体的准确率
多数类样本的准确率
少数类样本的准确率
两类样本准确率的均值

SMOTE的工作原理是：

对多数类样本进行下采样
对少数类样本进行克隆复制
对少数类样本通过插值进行上采样
对整体样本进行随机采样

很多人感觉到自己的收入与官方公布的平均收入相去甚远，最有可能的解释是：

自己工作不够努力，怨不得别人
统计样本不具有代表性
个体收入分布极度不均衡
错觉，都是错觉

Pearson's product moment correlation coefficient可用来判断：

X和Y是否正相关
X和Y是否负相关
X和Y是否不相关
X和Y之间的因果关系

在Box Plots当中，一个盒子越扁说明在该维度上：

25%到75%之间的数据分布较为集中√
25%到75%之间的数据分布较为分散
离群点较少
离群点较多

适合可视化高维数据的方法是：

圆饼图
散点图
平行坐标
直方图

数据可视化工作：

锦上添花，可有可无
不学就懂，一看就会
主要用于展示最终结果
贯穿数据挖掘工作全过程
写出视频中介绍的两个可视化软件的名字：
Citespace
Gephi

进行属性选择的原因是：

属性可能存在冗余
属性可能存在噪声
降低问题复杂度
个人喜好

关于分支定界法不正确的描述是：

树状搜索算法
随机搜索算法
依赖属性的单调性假设
能够减少搜索空间

以下方法中可以确保获得最优属性子集的是：

Top K Individual Features
Sequential Forward Selection
Sequential Backward Selection
Simulated Annealing
Exhaustive Search

假设某数据集的原始熵值为0.7，已知某属性的信息增益为0.2，那么利用该属性进行划分后数据集的熵值为：

0.9
0.7
0.5
0.2

熵衡量的是系统的不确定性，熵值越大（接近于1）说明系统的不确定性越低。【x】

特征选择与特征提取的关系是：
O特征提取包含特征选择
特征选择包含特征提取X
O一码事，说法不同而已
OIt is like comparing apples and oranges.

平面图中的老鹰能够被人们识别的原因是：
O体积大
O为人所熟知
长得有个性×
O观察角度合适

在PCA变换中，应尽量把数据向什么方向投影：
O数据集中的方向
O数据散布大的方向
●数据分组特征明显的方向X
O平行于原始坐标轴的方向

PCA变换中不包含以下哪一种操作：
。去均值×
矩阵特征值分解
O属性值标准化
O坐标变换

假设样本数大于维数，利用PCA技术，可以把N维数据降到：
只能到1维
只能到N-1维
1到N-1维
。取决于样本的类别数×

如果将PCA应用于带标签的分类数据：
O程序直接崩渍
O效果杠杠的
O驴唇不对马嘴×
O视情况而定

LDA与PCA最本质的区别是：

●能够降到的维数不同兴
O计算效率不同
O降维的目标不同
O我读书少，看不出来

当样本个数小于数据维数的时候，LDA不能正常工作的原因是：

O类间散布矩阵不满秩
O类内散布矩阵不满秩
O计算量过高
OFisher准则无意义

当类中心重合的时候，LDA不能正常工作的原因是：

OFisher准则函数分母为零
O类内散布矩阵奇异次
OFisher准则函数恒等于零
O类间散布矩阵满秩

对于二分类问题，LDA只能将原始数据降到1维的原因是：

类间散布矩阵秩为1
类内散布矩阵秩为1X
原始数据维度过高
原始数据维度过低

关于LDA和PCA投影方向描述正确的是：

必然相同
必然不同
LDA总是优于PCA
世事难料√

有监督的学习和无监督的学习的根本区别在于：

学习过程是否需要人工干预
-学习样本是否需要人工标记
学习结果是否需要人工解释
学习参数是否需要人工设置

已知池中有两种鱼，比例为7:3，若随机捞上一条，按照70%和30%概率随机猜测其种类，则整体误差最接近于

20%
30%
40%
50%

已知甲乙丙三人射击命中率分别为0.8，0.6和0.5，若每人各开一枪，则目标被命中的概率最接近：

0.85
0.90
0.95
1.00

当化验报告呈阳性的时候，正确的做法是：

心如死灰，万念俱灭
散尽家财，及时行乐
置若罔闻，我行我素
及时复检，防止假阳性

在感知机的判决函数中，W0的作用是：

image.png

为了后续学习算法推导的方便
其实在实际中可以略去
控制判决平面到原点的距离√
控制判决平面的方向

如图所示的感知机（闽值为0）实现的逻辑功能是：

image.png

O或门
O与门√
O非门
O与非门

我们很难刻意忘掉一个人的原因是：

记性好，没办法
刻骨铭心，矢志不渝
天长地久有时尽，此情绵绵无绝期
神经元的大规模分布式信息存储机制

下图所示真值表对应的逻辑电路是：

image.png

若神经元的误差对某输入的权重的偏导大于零说明：

image.png

根据Delta规则，在stochastic learning模式下，若神经元的实际输出大于期望输出，权重应：

image.png

以下关于感知机说法正确的是：

。在batch learning模式下，权重调整出现在学习每个样本之后X
只要参数设置得当，感知机理论上可以解决各种分类问题
O·感知机的训练过程可以看成是在误差空间进行梯度下降·
O感知机的激励函数必须采用门限函数

以下关于感知机说法正确的是：

O多层感知机比感知机只多了一个隐含层
O感知机只能形成线性判决平面，无法解决异或问题
多层感知机可以有多个隐含层，但是只能有一个输出单元
隐含层神经元的个数应当小于输入层神经元的个数

多层感知机解决线性不可分问题的原理是：

O分而治之，对原始问题空间进行划分
O将原始问题向更高维空间映射X
O在输出层和隐含层之间形成非线性的分界面
O将原始问题在隐含层映射成线性可分问题

采用Sigmod函数作为激励函数的主要原因是：

有国定的输出上下界
0计算复杂度较低
0导数存在解析解
0处处可导

在权重更新公式中引入冲量的主要目的是：

O提高算法的收敛精度
O提高算法的稳健性
O提高算法的全局优化能力
有助于摆脱误差平缓区域√

为了克服学习空间中存在的局部最优点应当：

O尝试从不同的初始点开始训练√
O将权重初始化为接近于0的值
O采用较小的学习率
O增加隐含层神经元个数

在误差逆传插算法中，输出层神经元权重的调整机制和感知机的学习规则相比：

O考虑到线性不可分问题，学习规则更为复杂
O一模一样，等价于多个感知机
遵循相同的原理，激励函数可能有所不同√
O所有输出层神经元的权重需要同步调整

在误差逆传播算法中，隐含层节点的误差信息应当：

根据自身的期望输出和实际输出的差值计算
O根据所有输出层神经元的误差的均值计算
O·根据自身下游神经元的误差进行加权计算·
O根据自身下游神经元的误差的均值计算

关于学习率参数的设置，正确的描述是：

O较大的值有助于提高算法的收敛稳定性
O较小的值有助于提高算法的收敛速度
O在开始阶段应该较大，然后逐渐减小
O在开始阶段应该较小，然后逐渐增大

在Elman网络中，第T时刻网络的输出取决于：

O当前的网络输入
O当前的网络输入和第T-1时刻网络的内部状态
O第T-1时刻网络的内部状态
O当前的网络输入和第1到T-1时刻网络的内部状态

以下关于Hopfield网络特性的描述正确的是：

基于内容的检索
联想记忆功能
误差逆传播
含噪声的模式识别

前馈神经网络适用的场景为：

训练时间有限
训练样本含有噪声
需要较快的测试响应速度
O较好的可解释性
多分类问题

在SVM领域中，margin的含义是：
O盈利率
O马金
O间隔√
O保证金

线性SVM和一般线性分类器的区别主要是：
O是否进行了空间映射
●是否确保间隔最大化√
O是否能处理线性不可分问题
O训练误差通常较低

为什么通常要选择margin最大的分类器？
O所需的支持向量个数最少
O计算复杂度最低
O训练误差最低X
O有望获得较低的测试误差

设超平面为w*x+b=0，其margin的大小为：
O1/lwl
O2/lwl
O1bl/lwl
21bl/IWI×

支持向量（support vectors）指的是：
O对原始数据进行采样得到的样本点
O决定分类面可以平移的范围的数据点√
O位于分类面上的点
O能够被正确分类的数据点

在SVM的求解过程中，支持向量与alpha的关系是：
Oalpha=0的数据点是支持向量
Oalpha>0的数据点是支持向量√
Oalpha-0的数据点是支持向量
O两者没有固定关系

软间隔（soft margin）的主要用途是：
O解决线性不可分问题
O解决不完全线性可分问题√
O降低算法时间复杂度
O提高算法分类精确

SVM当中，主要的运算形式是：
O向量内积
◎矩阵乘法
O矩阵转置
O矩阵分解

在SVM当中进行空间映射的主要目的是：
O降低计算复杂度
O提取较为重要的特征
O对原始数据进行标准化
O·提高原始问题的可分性√·

对于5VM，在映射后的高维空间直接进行计算的主要问题是：
O模型可解释性差
O计算复杂度高√
O容易出现奇异矩阵
O容易出现稀疏矩阵

通过运用核函数，我们可以：
O提高算法的可解释性
O生成数量较少的支持向量
O生成数量较多的支持向量
O避免高维空间运算，降低算法复杂度

所谓kernel trick，指的是：
O利用在原始空间定义的函数替代高维空间的向量内积操作
O利用在高维空间定义的函数替代原始空间的向量内积操作X
O核函数的导数具有简单的解析解，简化了运算
O核函数具有固定的上下界，可以输出（-1，+1）区间中的连续值

SVM核心技术的发展经历了：

O10年
20年X
O30年
O40年

线性SVM思想最初被提出的时候，你在：

●上幼儿园×
O上小学
O上中学
O不知道在哪儿

一个分类模型的capacity指的是：

O能够解决几分类问题
O能解决多大规模的问题×
O能将多少个点分开，不论如何分配标签
O能达到的精确度

为什么当两个模型的训练误差相同或接近的时候，通常会选择比较简单的一个：

O复杂模型的测试误差一定较大
O简单模型的测试误差一定较小
在相同置信度条件下，复杂模型的测试误差上界较大√
O只是一种经验，并没有理论依据

BnaAMmMp HayMoBM4 BanHMK（Vladimir Vapnik）为什么是真神：

×惊天引用次数
支持向量机开天辟地
统计学习理论一代宗师
口目光如炬，深不可测

聚类中的簇与分类中的类的关系是：

O簇即是类、类即是簇
O簇是类的一种具体表现形式
O类是簇的一种具体表现形式
不是一码事，但实际中有一定联系

在市场营销中，聚类最有可能帮助经营者：

O对客户群进行划分√
O进行商品推荐
O识别优质客户
O辅助商品定价

一个好的聚类算法应当具备哪些潜质：

能够处理非球形的数据分布
能够处理噪点和离群点
对样本输入序列不敏感
对海量数据的可扩展性

在基于聚类的图像分割例子中：

色彩越复杂的图，需要的簇的个数越少
属于同一个物体的像素对应同一个簇
簇的个数越少，分割后图像越接近原始图像
簇的个数越多，分割后图像越接近原始图像

关于数据预处理对聚类分析的影响的错误说法是

O可能改变数据点之间的位置关系
O可能改变簇的个数
O有助于提升聚类质量
可能产生不确定影响×

在Sequential Leader算法中：

O需对数据集进行多次遍历
O无法人为控制最终聚类的个数
O需要事先生成初始中心点
O聚类结果可能受数据访问顺序影响

K-Means算法中的初始中心点：

O可随意设置
O必须在每个簇的真实中心点的附近
O必须足够分散
O直接影响算法的收效结果

关于K-Means算法的表述正确的是：

O对数据分布没有特殊的要求
O能较好处理噪点和离群点
对初始中心点较为敏感
计算复杂度较高

对于Silhouette图表述正确的是：

。每个点的取值范围为[0，1]×
每个点的取值越接近于0越好
O可以体现出簇的紧凑性
O对于离群点，取值可能超过1

如何衡量聚类的质量：

●簇内数据点散布越小越好X
O簇中心点之间的距离越大越好
O簇的个数越小越好
O需要考虑数据点间的连通性

基于模型的聚类与基于分割的聚类相比：

O有更高的精确度
O有更低的计算复杂度
O有更好的鲁棒性
对数据分布有更好的描述性

在混合高斯模型中，每一个数据点：

O只能被某一个高斯生成
O可以被所有高斯等概率生成
O可以被任一高斯生成但概率可能不等
O可以被任一高斯生成且概率由高斯的权重决定

以K-Means算法为例，期望最大化算法中的：
O模型参数指的是每个数据点的簇标号
O隐含参数指的是每个数据点的簇标号
O模型参数指的是簇的个数（即K值）
O隐含参数指的是簇中心点坐标

在混合高斯模型中，每个高斯的权重：

O可以为负值
O相加必须等于0
O相加必须等于1
O须由用户预先设定

在掷硬币的例子中，期望最大化算法的隐含参数指的是：

O每组实验中正面朝上的次数
O每组实验中选择的硬币
。每枚硬币正面朝上的概率X
O每枚硬币被选中的次数

与K-Means相比，基于密度的DBSCAN的优点不包括：

能妥善处理噪点和离群点X
O能处理不规则的数据分布
O不需要预先设定簇的个数
O较低的计算复杂度

在DBSCAN中，对数据点类型的划分中不包括：

O中心点
O核心点
●边缘点X
O噪点

在DBSCAN中，对于噪点：

。划分到最近的簇X
O所有噪点单独形成一个簇
O直接无视
O不做特别区分

在层次型聚类中：
O需要用户预先设定聚类的个数
●需要用户预先设定聚类个数的范围×
O对于N个数据点，可生成1到N个簇
O对于N个数据点，可生成1到N/2个簇

在层次型聚类中，两个点集之间的距离计算方法通常不包括：
O由点集间距离最近的一对点的距离决定
。由点集间距离最远的一对点的距离决定X
O由点集间随机的一对点的距离决定
O由点集间所有点的平均距离决定

已知梭罗的《瓦尔登湖》和柏拉图的《理想国》经常被同时购买，那么：

O《瓦尔登湖》的读者很有可能会买《理想国》
《理想国》的读者很有可能会买《瓦尔登湖》
O两本书的读者都很有可能买另一本书
得具体问题具体分析√

某人买电脑的预算为6000元，最终从电脑城买了一台8000元的电脑，学术上的解释是：
O交叉销售
O向上销售
O捆绑销售
O被坑了
显示答案您已经使用了1次中的1次超交
单选题
某人望着一柜子衣服，感觉自己没有衣服穿，遂上街四个小时，购得手袋一只、高跟鞋若干双、帽子一顶、丝巾一
条、YSL口红一只…….针对以上行为，学术上的解释是：
交叉销售
O向上销售
O捆绑销售
O女人啊
显示答案已经使用了1次中的1次提交
单选题
百货商场第一层进门区域通常会布置为：
O女装
O男装
O美食广场
O香水、化妆品√

关联规则X->Y的支持度等同于{X, Y}的支持度。【√】

关联规则X->Y的置信度等价于条件概率P(Y|X)的值。【√】

关联规则X->Y是一条强规则指的是{X, Y}在数据库中频繁出现。【x】

一条有价值的关联规则必须满足：
支持度高：足够频繁
置信度高：足够有说服力
前件和后件交集为空
前件和后件必须包含多个item

一条关联规则的置信度只需大于预设的阈值就是有价值的规则。[x]

只要关联规则X->Y的置信度大于Y自身的概率就是一条有价值的关联规则。[x]

因为关联规则描述的是事件之间的条件概率，因此可以用于推断因果关系。[x]

冰激凌和犯罪的例子说明：

还记得那些年我们一起学过的条件独立吗？还记得那些年我们一起学过的条件独立吗？ - 正确

用蛮力搜索所有的频繁项集的最大困难在于：
O每条交易记录可能很长
O数据库可能包含很多条交易记录
O候选项集总数过于庞大
O存储器/O读写耗时

评价一个学者水平的正确方式是：
O项目经费
●他人引用次数√
O头衔（杰青、长江、院士）
O获奖（国家、省部级科技奖励）

关于Apriori算法说法不正确的是：
O所有频繁项集的子集都是频繁的
O所有不频繁项集的超集都是不频繁的
O对频繁项集的搜索遵循bottom-up的原则
O最终的输出结果是长度最长的频繁项集

对Apriori算法工作原理最贴切的说法是：

O空间剪枝
O启发式搜索
O折半查找
分支定界X

从三个频繁项集{1，2}，{1，3），{1，4}中能生成以下哪个可能频繁的项集：

O（1，2，3}
Q{1，2，4}
Q（2，3，4}
●以上均不正确√

在Apriori算法中，假设已获得Lk，则寻找K+1频繁项集时应确保：

O所有可能频繁的K+1项集都在Lk+1中
●尽可能多的K+1项集都在Ck+1中X
O所有可能频繁的K+1项集都在Ck+1中
O我有点乱

以下哪种推荐最为靠谱：

已购买iPhone6，推荐iPhone 6Plus
已购买小米5，推荐手机贴膜√
O已购买华为Mate7，推荐备用电池
O已购买Galaxy Note 7，推荐防爆套装

以下哪种推荐最有内涵：

O喜欢看《碟中谋3》，推荐《碟中课4》
O喜欢看《红楼梦上册》，推荐《红楼梦下册》
喜欢看《辛德勒的名单》，推荐《钢琴家》√
O喜欢看《红磨坊》，推荐《冷山》

以下关于序列和项集说法不正确的是：

O序列中包含项集
完全相同的项集不能在同一序列中重复出现
O序列强调时间上的先后顺序
不同序列对应不同的客户ID

已知序列<{2，3}{3，6，5）{8）>，以下哪条序列不是其子序列：

O<（2}{8}>
O<（2）（3，6}>
O<{3，5}{8}>
<（2）（3）{5>

在线广告引擎需要考虑的因素有：

你在哪里？
你在看什么？
你是谁？
历史点击记录

网页中植入的广告对手机用户的影响和对PC用户的影响相比：

对手机用户影响大

以下哪些行为可能意味着用户喜欢某一首歌曲：

单曲循环
经常播放
下载到本地
推荐给好友

“Your trash can be someone's treasure.” 这句话的意思是：

人的需求不同

以下属于基于内容的推荐的例子有：

小明喜欢吃草霉，推存她去品安草每奶背
听闺蜜说《花千骨》好看，于是去追剧
小陈喜欢看《那些年》，推荐她看《致青春》
听说最近某影片很火，遂决定去一探究竟

隐含语义分析的数学原理与以下哪一种技术最接近：

SVM
LDA
PCA
SMOTE

在向量空间模型中，两篇文档接近等价于：

夹角余弦值接近于1
夹角余弦值接近于0.5
夹角余弦值接近于0
夹角余弦值接近于-1

近义词的存在会导致信息检索时：

召回率降低
准确率降低
召回率提高
准确率提高

PageRank的计算依据是：
O网页的访问量
O网页内容的质量
O网页内容的类型
网页与其它网页的关系

在计算一个网页的PageRank值时需要考虑：

O所有相似的网页
O所有与之链接的网页
所有指向它的网页
O所有它指向的网页

网络中所有网页的PageRank值的总和：

恒等于1
恒等于0
随着时间推移越来越大
随着时间推移越来越小

具有高PageRank值的网页的特征是：

万千宠爱于一身
O万花丛中过，片叶不沾身
O花自飘零水自流，一种相思两处闲愁
O举杯邀明月，对影成三人

斯坦福大学较早即出售谷歌股票的原因是

对谷歌未来不看好
没见过那么多钱
问世间钱为何物
点此查看

以下哪些问题会显著影响协同过滤算法的有效性：

新用户
新商品
虚假评价
灰山羊

在协同过滤算法中，需要考虑哪些客户的信息：

巴与目标客户兴趣相投的√
与目标客户兴趣相反的√
所有与目标客户有打分交集的
打分矩阵中的全体用户

打分矩阵的主要特点有：

行数较大
列数较大较为稀疏`
对称矩阵

在基于模型的协同过滤算法中，因为空缺值普遍存在，所以推荐使用：

神经网络
支持向量机
朴素贝叶斯
决策树

如果甲乙两人通常只在周末固定时间通电话，二人的关系最有可能是：

夫妻同事 母子情人哥们

知道吗，Netflix Prize的冠军队的算法并没有在实际中应用：

为了满足实际需求，需要对算法进行大量修改
所获得的准确率的提升对实际利润影响很小
公司产业转型，在线视频用户行为与DVD租碟用户行为差异很大
对于在线视频，可以获得更多用户行为信息
对于在线视频，推荐的精准性要求不需要那么高

关于集成学习的说法正确的有：

国结力量大
尺有所短寸有所长
赢者通吃
一个好汉三个帮

关于集成学习算法的说法正确的是：

一种并行的算法框架
一种串行的算法框架
一类全新的数据挖掘算法
一类将已有算法进行整合的算法

集成学习成功的关键在于：

选择尽可能强悍的基础分类器
选择多样性的基础分类器
采用尽可能多的基础分类器
选择合适的基础分类器权重

以下哪些措施有助于提高基础分类的多样性：

×采用不同的训练集√
口采用不同类型的算法√
0采用强的基础分类器
0采用不同的训练参数√
口采用不同的数据特征√

关于Bootstrap采样正确的说法是：

有放回的采样
无放回的采样
样本大小必须与原样本相同
应尽可能保证各原始数据都出现

Bagging的主要特点有：

各基础分类器并行生成
各基础分类器权重相同
只需要较少的基础分类器
巴基于Bootstrap采样生成训练集

在随机森林中，由于采用了Bootstrap采样，因此理论上有多少原始样本没有被选入训练集？

1/2
1/3
1/4
3/4

何充分利用现有数据评价随机森林的性能：

10-fold交叉验证
用00B中的数据作为测试集
用不在0OB中的数据作为测试集X
用所有数据作为测试集

在基于Stacking的集成模型中：

口第一层的基础分类器必须采用同一种分类器
在训练第二层分类器时应采用各基础分类器的输出作为输入
在训练第二层分类器时应采用在基础分类器中占多数的输出值作为输出
第二层分类器的作用是对基础分类器的输出进行集成

对Boosting模型的描述正确的是：

采用串行训练模式
口基础分类器通常应采用强分类器
通过改变训练集进行有针对性的学习
基础分类器采用少数服从多数原则进行集成

对AdaBoost描述正确的是：

可以集成出训练误差任意低的分类器
巴基础分类器可以任意弱（准确率高于50%）
通过对样本进行加权达到改变训练集的效果
被当前基础分类器分错的样本的权重将会减小

在AdaBoost算法中，z的作用是：

确保在t+1代所有样本权重之和为1
一个用于标准化的变量，可有可无
可以用来描述算法的训练误差上界
较小的Z值说明当前分类器的效果较好

AdaBoost中核心参数alpha的取值为（e为模型错误率）：

1/2In（1-e/e）
OIn（（1-e）/e）
1/2In（e/（1-e）X
OIn（e/（1-e））

AdaBoost算法的优点有：

容易实现
可解释性强
参数选择简单
不容易过学习
抗噪声能力强

AdaBoost中基础分类器的权重设置策略存在的问题有：

计算复杂
不能保证是最优解
需要用户进行手工设置
不能根据测试样本进行自适应调整√

以下对RegionBoost算法描述正确的是：

基础分类器权重根据当前输入样本计算得出
每个基础分类器需要一个额外的可信度模型
每个基础分类器的权重针对不同输入样本有所区别
可信度模型用于估计基础分类器对特定输入的准确度

RegionBoost与AdaBoost相比：

训练误差通常降低较慢
训练误差能够趋近于0
测试误差可能优于AdaBoost
有较多的参数需要设置

进化论的基本要素包括：

image.png

适者生存
Q用进废退
杂交变异
选代优化

在针对植株高度的豌豆实验中，如果把杂种一代（Ts）和纯矮株(ss）杂交，产生的子代中高、矮豌豆的比例应该接近于：

image.png

1:1
1:2
2:1
3:1

属于进化计算范畴的算法有：

Simplex Method
Gradient Descent
Genetic Algorithms
Genetic Programming
Gauss-Newton Algorithm
Expectation Maximization Algorithm

蚂蚁寻找最短路径的能力来源于：

群体合作

鸟人飞行尝试以失败告终，其可能的原因有：

人体肌肉骨骼特点决定
简单模仿、生搬硬套

优化问题的难度主要来源于：

问题的高维度
问题变量间的强相关性
解空间中的多极值点
巨大的解空间

对于从某地出发，访问15个城市的TSP问题，其解空间的大小最接近于：

image.png

1,000,000,000,000
100,000,000,000
10,000,000,000
1,000,000,000

给定100个属性，挑选出不超过3个属性，其解空间的大小为：

image.png

161700
166650
166750
166900

根据Bremermann's Limit，质量为一公斤的计算机的理论最高运算速度的量级为：

10的50次方

在Bin Packing问题中，如果使用First Fit方法，依次将物品放入第一个可以容纳的箱子中，那么最终使用的箱子的个数的已知上界最接近于（OPT为理论最优解）

image.png

2.0 OPT

进化计算实现全局优化能力的途径有：

基于种群，减小初始点影响
并行搜索，疏而不漏
动态调整，合理分配搜索资源
交叉变异，优势互补

进化计算领域的三个主要会议是：

CEC
GECCO
IJCNN
PPSN

Blondie24中运用到的技术包括：

神经网络
协同进化
比赛对局数据库
专家知识库

以下关于进化计算说法`不正确`的是：

要求目标函数可导
要求目标函数为凸函数
要求目标函数的定义域为凸集
要求目标函数有明确的数学表达式

以下哪些措施有助于保持遗传算法搜索过程的稳定性：

Elitism
(μ+λ) Strategy
采用较大的种群
采用较高的变异率

以下哪种个体选择策略容易造成“赢者通吃”现象

Rank Selection
Rouletee Wheel Selection
Tournament Selection Tournament Selection
Truncation Selection

下图中哪一个对应格雷码？

image.png

我选左边
我选右边
臣妾真的不知

在Tournament Selection中，每次参与PK的个体越多：

强势个体受益越大
强势个体受益越小
弱势个体受益越大
弱势个体受益越小

关于杂交算子说法正确的是：

有助于保持种群的基因多样性

遗传算法的主要搜索方式
通过基因重组生成新的个体
体现出对现有搜索结果的精细利用（Exploitation）

关于变异算子说法正确的是：

有助于保持种群的基因多样性
通常独立作用于个体的某一位基因
设置较大的变异率有助于提高收敛速度
体现出对解空间的各个区域的探索（Exploration

关于选择算子说法正确的是：

不影响种群的基因多样性
可视为搜索资源分配的调节机制
进化初期Selection Pressure过大易导致不成熟收敛
进化初期Selection Pressure过大易导致算法收敛过慢

Free Lunch定理的寓意是：

不能白吃白占不
吃人嘴短、拿人手短
不存在所谓的最优算法
贪小便宜吃大亏

遗传程序设计中个体的表现形式为：

树
图
表
向量

遗传程序设计中个体的大小：

固定不变
可能随杂交操作变化
可能随变异操作变化
随着迭代逐渐增大

在遗传程序设计中对两个完全相同的个体进行杂交：

没有意义，因为不能产生新的基因
没有意义，因为子代和父代完全相同
有意义，有可能生成新的个体
有意义，因为杂交点的选取可以不对称

在Evolutionary Arts中，最有挑战性的环节是：

image.png

遗传算子
适应度函数
编码表示
计算复杂度

关于进化计算的描述正确的是：

image.png

可用于模拟和分析自然界的进化过程
可用于解决各类工程优化问题
包含各种从自然中获得灵感的算法
万物皆进化

一个真正智能的系统应具有以下特征：

image.png

自学习
可进化
不需要人的具体指导
能够超过设计者的能力范畴

这是一张60年前的照片，画面中的女人在展示当时最先进的IBM 305 RAMAC 商用计算机，配备容量为3.75 MB 的IBM 305硬盘存储单元（左侧圆柱形装置）。该系统当时每月租金按目前价格折算最接近于：

image.png

1万美元
2万美元
3万美元
5万美元

https://en.wikipedia.org/wiki/IBM_305_RAMAC

针对在社交媒体频繁发自拍的行为说法正确的是：

image.png

这是病，得治
招人烦，容易被拉黑
真可怜，连个拍照的人都没有
可能不经意间泄露个人隐私，造成安全隐患
我嚼着以上都对

在社交平台上点赞的行为可能泄露自己的：

image.png

性别
年龄
职业
感情状况
取向

目前，数据的被遗忘权主要指的是：

image.png

我有权忘记自己的过去
我有权删除自己保存的数据
我有权要求网站直接删除和自己有关的数据
我有权要求搜索引擎删除过时的和自己有关的搜索结果

数据的可携带权指的是：

image.png

公民享有随身携带数据的权力
公民享有访问政府公开数据的权力
公民享有要求服务商提供个人数据迁移便利的权力
公民享有以不同可移动媒介存储个人数据的权力

在美国，目前每年拘禁在监狱和拘留所等机构的人数最接近于：

image.png

一百万
两百万
五百万
七百万

利用大数据分析技术进行预防犯罪：

image.png

可保天下无贼、国泰民安
主要难点在于选择合适的预测模型
人心难测，难于上青天
可针对群体进行防范，但不宜针对个人

《少数派报告》的主演是：

image.png

汤姆·汉克斯
汤姆·克鲁斯
皮尔斯·布鲁斯南
莱昂纳多·迪卡普里奥

何老师的手表是以下哪个品牌：

image.png

Apple Watch
Breitling Cartier
Hermès
OMEGA
Rolex

举例说明幸存者偏差对数据分析的影响。

http://www.sohu.com/a/298813041_774914

幸存者偏差（Survivorship Bias）指的是人往往会注意到某种经过筛选之后所产生的结果，同时忽略了这个筛选的过程，而被忽略的过程往往包含着关键性的信息

阐述混淆矩阵（Confusion Matrix）中各项的含义

True Positive 正确划分
False Positive 错误漏分
True Negative 有效排出
False Negative 无意义数据