机器学习day01

什么是机器学习？
   1.机器学习，致力于研究如何通过计算的手段(GPU和CPU)，利用经验(数据)来改善自身的性能的过程
   2.机器学习，专门研究计算机如何能够模拟或实现人类的学习行为，以获取新的知识或技能
       从而重新组织这些新的技术或技能提高自身的性能或能力。
   3.数据Data+机器学习算法==>Model(预测的能力)
   4.当有新的数据需要预测，只需要提供给Model模型即可得到结果信息。
   5.对于数值计算、确定性的问题不是机器学习问题。
   6.基于规则的学习和基于模型的学习
       基于规则的学习---利用人从业务中发现规律--->规则--->其余数据只需要
           做一个判断就可以得出当前的邮件是否为垃圾邮件
       基于模型的学习---利用数据集(训练集和测试集)--->
           训练集+分类算法---训练模型Model
           有新的邮件数据+Model=Predict-->是垃圾邮件or不是垃圾邮件
机器学习的基本概念：
       训练集，测试集，特征值，监督学习，非监督学习，半监督学习，分类，回归
           数据集---城市数据集
           行---样本数据
           列---特征或属性数据(除去最后一列的标签列)
           属性空间：属性张成的空间
           特征向量：每一个样本中的数据组成的向量
           训练集：用于模型训练的数据集，X+Y
           测试集：用于校验模型的优劣程度，X+Y
           训练过程：(学习过程)使用训练数据集+机器学习算法==>模型
           模型：将测试集中除去Y部分灌入模型中进行预测Y1
           误差：Y-Y1
           测试误差：模型在测试集上的误差
           训练误差：模型在训练集上的误差
           泛化误差：对新数据的适应能力
           准确率：预测争取的个数/全部个数个数
           错误率：预测错误的个数/全部样本个数
   以西瓜数据集为例：
           数据集名称---西瓜数据集
           样本个数、属性或特征个数
           特征空间
           特征向量
           训练集、测试集
           模型---判断西瓜是好西瓜还是坏西瓜(二分类问题)
           当有新的数据来的时候，通过模型做预测
           误差：预测值和真实值有误差
           准确率和错误率
   引入：
   分类和回归差别：
       输出变量是否是连续值--是-->回归不是--->分类
   监督学习(有类别标签的学习行为)：
       将分类和回归统称为监督学习
   无监督学习(没有类别标签的数据集学习方式)
   半监督学习(有的数据集有标签有的数据集没有标签)

猜你喜欢