人工智能第1周(1-3节)

 

目录

一、一个Kaggle竞赛优胜解决方案

二、机器学习任务类型

三、对鱼进行分类


一、一个Kaggle竞赛优胜解决方案

1、在Kaggle竞赛中,优胜的解决方案具备以下特点:

  • 特征工程
  • 模型融合
    • 在多层上进行的学习。第一层:FM、GBDT。  第二层:GBDT、RF、VW、FM。
    • 多种 相互之间可以互补的模型 进行组合。GBDT、RF、VW、FM进行组合。


2、经验

  • 基础模型非常重要。

如logist回归(线性模型)就是基础模型,而FM(因子分解机)和VM(????)就是它的变种。

  • 集成学习模型 单模型性能好,比线性模型还好。

如GBDT,在2015年时,只用GBDT就能在一个复杂的竞赛中取得很好的成绩。

  • 对待特定的问题,可以使用特别的模型。

如FM。

  • 模型融合非常重要

3、流程总结

  • 原始数据(Raw Features)进行特征工程。
  • 考虑用单个模型去试下效果。
  • 进一步考虑用集成学习模型来提升效果。
  • 多找一些 单个还不错的模型,考虑模型融合。

二、机器学习任务类型

1、什么是监督学习?什么是非监督学习?

监督学习:数据里面有y、有目标、有老师监督。

                  从训练集中 学习到一个x->y的映射f,从而对测试集中的x进行预测f(x)

非监督学习:数据里面没有y,或者y是隐藏的(y称为隐含变量)。


2、任务分类

  • 半监督学习

部分带有标签y,另一部分不到。

这是因为标注是一件非常困难的事情,比如说医疗数据,标签需要专业人士来标注,但是如果全部标注的话,将会非常的昂贵。所以,仅仅会标注部分标签。

希望利用少数的有监督学习,和很多不带标签的样本,得到一个较好的模型。

  • 增强学习

具有一个回报函数。输入一个x,返回一个y。然后我们对y进行评价,给出一个反馈,正反馈就是奖励,负反馈就是惩罚。通过无限次的迭代,最终我们的学习目标会找到一个回报最大的路径。

AlphaGo用到的就是增强学习。由其是AlphaGo Zero只用到了增强学习,而没有用专家库。


3、损失函数

  • 度量模型的预测值和真实值之间的差异,loss function。

三、对鱼进行分类

1、这一小节仅仅演示 实际中的开发流程

  • 特征工程,提取特征,如:长度、亮度(颜色)、鳍、鳃等。
    • 选择长度作为特征进行分类,得到一个预测的y。找到一个决策边界,求得最小化误差(损失函数)。
    • 选择亮度(颜色)作为特征进行分类,预测对应的y。找到一个决策边界,求得最小化误差(损失函数)。
    • 选择长度、亮度(颜色)作为特征进行分类,预测对应的y。找到一个决策边界(线性分类),求得最小化误差(损失函数)。看看效果是否更好(当维度较低时 ,可视化比较重要)。
    • 考虑非线性分类是否能更好。


2、特征决定了机器学习的上限,而模型只能逼近这个上限。

 

猜你喜欢

转载自blog.csdn.net/xiaogao2017/article/details/81071901
1-3