清华大学数据挖掘课程幕课习题（第一章）

第一章第二节

1.“教育不是灌输，而是点燃火焰” 这一思想出自于：苏格拉底。
2.如何学好数据挖掘技术？认真学习幕课视频；充分利用课后阅读材料；勤于动手，实践出真知；主动思考，知其然，知其所以然。

第一章第三节

1.在超市环境中对客户位置轨迹进行记录和分析的主要目的有哪些？对拥挤人群进行预警；优化商场布局；个性化营销。
2. 在实际数据分析工作中，数据类型转换和数据自身的错误是面临的主要挑战之一。正确
3.大数据和传统数据分析相比，核心特征就是数据量大。错误，是数据量，数据类型和数据产生的速度。

第一章第四节

1.理想的数据挖掘工作成果应当：Interesting；useful；hidden。
2.ETL系统主要包括：数据提取；数据转换；数据装载。

第一章第五节

1.分类器在训练样本上的学习误差越低越好。这是错误的，如果误差越小，说明在空间中分类的线越复杂，对于新样本的判断不一定准确。就像一个死读书的人，在面对他没有见过的知识时，不知道是一个道理，因此，也不是越大就越好。
2.混淆矩阵中False Negative的含义是：被错误的分为负类的样本。
3.在ROC分析中，分类器的性能曲线的理想状态是：越靠上越好，AUC趋近于1.
4.以下最有可能涉及代价敏感分类问题的是：银行信用卡评分模型。
5.假设目标客户占人群的5%，现根据用户模型进行打分排序，取1000名潜在客户中排名前10%的客户，发现其中包含25名目标客户，问此模型在10%处的提升度是多少？

解析；假如100个客户，只有八个人对商品感兴趣，传统方法就是打100个电话，才会知道到底是那八个人。用数据分析方法，对用户进行建模，把用户接受产品的可能性算出来，把前百分之十的用户拿出来，其中可能占了真实感兴趣的百分之四十的用户，百分之四十除以百分之十，就是四，也就是所谓的提升度。
这道题：目标客户占人群百分之五，则目标客户=1000*0.05=50
前百分之十中真实目标客户占比为：25/50=0.5
提升度= 0.5/0.1=5

第一章第六节

聚类与分类的主要区别在于：
（1分）
数据维度不同
数据类型不同
~~数据有无标签~~
计算复杂度不同
线性回归模型由于自身的局限性只能描述变量间的线性关系。
（1分）
正确
错误

第一章第七节

GPU作为高性能计算设备的优点包括：
（1分）
低成本
高计算密度
可独立使用
安装便捷
多选2. 有效的数据挖掘工作需要哪些因素的支持？
（1分）
高质量的数据
合适的算法模型
强悍的计算平台
丰富的领域知识
单选3. 在互联网时代，个人隐私信息的现状是：
（1分）
没有人知道我是一条狗
只要自己平时注意，还是妥妥的
可能偶尔会泄露
裸奔，必须的
单选4. 如何才能最有效采集到用户可能不愿公开提供的信息？
（1分）
晓之以理，动之以情
威逼利诱，瞒天过海
隐匿用户身份
随机问卷题目
判断5. 在隐私保护的问卷调查中，针对两个互补问题，用户也可用Yes/No回答，与用True/False本质上是一样的。
（1分）
正确
错误
单选6. 以下哪条描述体现了并行计算的思想？
（1分）
子又生孙，孙又生子，子又有子，子又有孙，子子孙孙无穷匮也
人多力量大，众人划桨开大船
书山有路勤为径，学海无涯苦作舟
不积跬步，无以至千里，不积小流，无以成江海
单选7. 云计算的核心特征是什么？
（1分）
Pay As You Go
看云卷云舒
服务器集群
网络化服务
单选8. 云计算领域中的SaaS指的是：
（1分）
平台即服务
基础设施即服务
软件即服务

第一章第八节

短期股票价格波动难以精准预测的主要原因在于现有模型本身不够精密。
（1分）
正确
错误
单选2. 彩票号码难以预测的原因在于：
（1分）
数据样本不够大
号码的纯随机性
现有模型不够复杂
特征维度太高
单选3. 以下哪条描述最贴近幸存者偏差现象？
（1分）
成王败寇
盲人摸象
赢者通吃
真理往往掌握在少数人手里
单选4. 两个变量X和Y呈现负相关性，说明：
（1分）
X增大会导致Y减小
X减小会导致Y增大
X增大不会导致Y增大
然而并不能说明什么
单选5. 知名企业的CEO中身材高大者的比例高于人口平均水平，这是因为：
（1分）
身材高大者智商高
身材高大者情商高
身材高大者工作更努力
身材高大者容易树立威信
单选6. 针对数据挖掘领域，以下哪个观点是正确的：
（1分）
数据=财富
You cannot be too careful!
算法为王
神秘莫测，高不可攀

爱学习的小邋遢

发布了5 篇原创文章 · 获赞 0 · 访问量 304

私信关注