机器学习的基本方法
有监督学习 (supervised learning)
数据集中的样本带有标签,有明确目标
回归和分类
典型方法
回归模型:线性回归,岭回归,LASSO和回归样条
分类模型:逻辑回归,K近邻,决策树,支持向量机等
无监督学习 (unsupervised learning)
数据集中的样本没有标签,没有明确目标
聚类,降维,排序,密度估计,关联规则挖掘
强化学习 (reinforcement learning)
智慧决策的过程,通过过程模拟和观察来不断学习,提高决策能力
例如 AlphaGo
基本概念
数据集: 一组样本的集合
样本: 数据集的一行,一个样本包含一个或多个特征,此外还可能包含一个标签
特征:在进行预测时使用的输入变量
训练集:用来训练模型的数据集
测试集:用来测试模型的数据集
模型:建立数据的 x 和输出 y 之间的映射关系 \(y = f(x)\)
损失函数 \(L(f(x_i), y_i) = (f(x_i) - y_i)^2\)
优化目标 \(min_{f\epsilon F}\frac{1}{n}\sum_{i=1}^nL(y_i, f(x_i))\)