机器学习视频笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Carey_Lu/article/details/81200830

1、机器学习是什么

第一阶段:试图使用逻辑和规则直接来演绎人类的智商和智能

第二阶段: 让机器真正学会人类学习方式范式就是机器学习,通过大量的数据归纳出统计规律。

 2、什么是模型

类似于y=ax+b的数学公式就是对一个模型的定义,线性回归模型就是假设建立一个模型,符合P=w1X1+w2X2+w3X3+b等式的线性模型,w1,w2,w3作为此模型的参数。

 3、监督学习与损失函数

监督学习是一种归纳法!

求解方法:暴力求解法

结论:数据量太大,暴力无法做到求解

 4、梯度下降

机器学习求解其实就是优化的过程,这里的优化也就是指的是梯度下降的方法。、

梯度下降也就是利用数学中求导的思想,求解下降到代价函数最优解的方法。

为什么一定能找到一个代价函数的最小值(最优解)?

代价函数J(θ)是一个多元的二次函数,数学中凸问题(凸优化)一定是有最优解。

5、数据标注的价值

大数据时代1.0: 数据的积累和呈现

大数据时代2.0: 机器学习用经验数据预测未来

机器学习给数据赋予价值

 6、  线性回归模型代码展示(一)

线性回归,是最简单的回归模型。所谓回归问题,是指从一组特征,预测另一个连续的特征。

7、  线性回归模型代码展示(二)

 

 8、  线性回归模型代码展示(三)

 9、机器学习的三大基本范式(一)

dimensionality reduction  降维

reinforcement learning  强化学习

  10、机器学习的三大基本范式(二)

监督学习大多数作预测,而强化学习大多数作决策。

11、 监督学习中分类和回归的特征

分类问题和回归问题都是x——y的映射,前者属于离散值,后者是连续值。

12、感知机 

树突是感知信息,轴突是传递决策作用。

 13、代价函数

求d,直接用点到直线的距离公式就好了。

 14、随机梯度下降、如何判断分类器的好坏

随机梯度下降基于单个数据点进行调整,而不是基于整个数据集来进行调整。

随机梯度下降可能会增加时间开销,当数据集很大的情况,随机梯度下降可能花费时间会相对短,不失为一种主流的优化方法。

判断分类好坏的几个重要指标

F1-score是召回率和准确率的调和平均数,中和权衡这两个指标来判断分类的好坏。

15、感知机的缺陷及总结 

 16、代码展示

 随即梯度下降代码展示:

17、 KNN的算法是什么

 

18、 如何选择KNN中的K

 19、过拟合和交叉验证

20、代码展示 及KNN算法的问题

1、维度(特征)增加,距离失效

2、数据量大,算法超慢

21、 机器学习什么时候会成功

机器学习适用的条件

22、如何用概率论度量模型的不确定性(一)

23、如何用概率论度量模型的不确定性(二)

24、如何用概率论度量模型的不确定性(三)

25、如何用概率论度量模型的不确定性(四)

26、如何用概率论度量模型的不确定性(五)

27、模型误差的两种分类(一)

28、模型误差的两种分类(二)

 

偏差——预测值的期望值(ED)与真实值(h(x))的差值

方差——预测的真实值(y(x,Di))与预测期望值(ED)的差值

 29、模型误差的两种分类(三)

如何减小泛化误差

  1. 数据量增加,减小方差
  2. 增加模型复杂度,减小偏差
  3. 最好的模型都有上限,噪声的限制

30、代码展示

 用于训练的数据越多,预测结果的方差就越小;

用于训练的模型越复杂,预测结果的偏差就越小;

31、如何选择好的特征值(一)

相关性来看与特征是正相关还是负相关。

32、如何选择好的特征值(二)

33、如何选择好的特征值(三)

34、正则化(一)

35、正则化(二)

36、代码展示(一)

37、代码展示(二)

38、逻辑斯蒂(Logistic)模型

即机器学习的三步骤:找模型、损失函数、调参(梯度下降)

逻辑斯蒂(Logistic)模型和概率有关系,需要将线性回归-∞—+∞转化为0—1的概率,;

39、交叉熵KL散度

40、如何度量模型的目标(一)

41、如何度量模型的目标(二)

42、如何求解逻辑斯蒂回归模型的优化问题(一)

43、如何求解逻辑斯蒂回归模型的优化问题(二)

44、代码展示(一)

45、代码展示(二)

46、代码展示(三)

47、决策树是什么

48、信息熵,如何衡量哪些特征重要

49、如何用信息增益在决策树中选择特征(一)

50、如何用信息增益在决策树中选择特征(二)

51、决策树的构建何时停下来

52、决策树如何应对连续特征

53、决策树如何应对过拟合

54、随机森林在回归问题上的代码演示

55、复习决策树

56、Bagging方法

典型的例子:随机森林(并行思维)

57、Boosting方法(一)

另一种集成方法是stacking,形如Bagging和Boosting两种方法特点的结合;

Boosting方法的演化和改进方法:

GradientBoosting的方法核心思想——残差拟合

58、Boosting方法(二)

59、Boosting方法(三)

60、Boosting方法(四)

AdaBoost是尝试不同损失函数的结果

AdaBoost和Gradient Boosting很像,只不过处理梯度的方法不一样,另外Gradient Boosting是对样本的权重进行调整,AdaBoost是最后测试加合时给了不同的比重,正确率越高,权重越大;

61、主成分分析背后的直觉

62、PCA怎么做

63、代码展示(一)

64、代码展示(二)

65、传统机器学习方法的问题(一)

66、传统机器学习方法的问题(二)

67、神经网络的历史发展

68、神经网络三要素之一:权重矩阵

69、神经网络三要素之激活函数、决策层

70、网页展示

71、SVM的目标:如何将间隔最大化

72、SVM要解决什么样的优化问题

73、拉格朗日最优问题的解法(一)

74、拉格朗日最优问题的解法(二)

75、SVM中的软间隔

76、SVM中的核函数

77、核函数为什么有用(一)

78、核函数为什么有用(二)

79、SVM与其他模型的对比

SVM同样是解决线性不可分问题的办法,作用在原特征的基础上,后来被复杂的神经网络所慢慢取代地位;

SVM的核心思想是正则(使分类区两端尽可能分的开,硬间隔和软间隔);

SVM通过升维(非线性项x1x2)的方式来解决二维线性不可分;

VC维增加,拟合能力变强,容易产生过拟合;其中C参数能限制过拟合,C越小,过拟合越小;

猜你喜欢

转载自blog.csdn.net/Carey_Lu/article/details/81200830