机器学习定义
- 根据已有的数据,建立更加符合现实的模型,用以预测未来的趋势。
- 对于某给定的任务T,在合理的性能度量方案P(模型准确率)的前提下,某计算机程序可以自主学习任务T的经验E(历史数据);随着提供合适、优质、大量的经验E,该程序对于任务T的性能逐步提高。
机器学习基本概念
- 拟合:构建的算法符合给定数据的特征
- :表示第i个样本的x向量,即矩阵的行
- :x向量的第i维度的值,即矩阵的列
- 鲁棒性:系统的健壮性,鲁棒性越高则健壮性越强
- 过拟合:算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合
- 欠拟合:算法不太符合样本的数据特征
机器学习分类
有监督学习
- 用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知的样本,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
无监督学习
- 样本数据集中无明显的数据特征,使用一定的数学模型,推断出数据的一些内在数据结构。
半监督学习
考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,是有监督学习和无监督学习的结合
有监督学习
判别式模型
- 直接对条件概率进行建模,常见的判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等。
生成式模型
- 对联合分布概率进行建模,常见的生成式模型:隐马尔可夫模型HMM,朴素贝叶斯模型,高斯混合模型GMM,LDA等
两者比较:
- 生成式模型关注数据是如何产生的,能够得到数据的模拟分布,寻找的是数据分布模型;判别式模型关注数据的差异性,寻找的是分类面
- 由生成式模型可生成判别式模型,但由判别式模型无法生成生成式模型
- 生成式模型更具普适性;判别式模型更直接,目标性更强
无监督学习
- 无监督学习试图学习或提取数据背后的数据特征,或从数据中抽取出重要的数据特征信息,常见的算法有:聚类、降维、文本处理(特征抽取)等。
- 无监督学习往往是作为有监督学习的前期数据处理,功能是从原始数据中抽取出必要的数据信息。