【和我一起学西瓜书】1.绪论-术语列表

重要术语:

  1. 记录 / 样本(sample)/ 示例(instance)
  2. 数据集(data set)
  3. 属性(attribute)/ 特征(feature)
  4. 属性值(attribute value)
  5. 属性空间(attribute space)/ 样本空间(sample space)/ 输入空间
  6. 特征向量(feature vector)
  7. 维数(dimensionality)
  8. 学习(learning)/ 训练(training)
  9. 训练数据(training data)
  10. 训练样本(training sample)
  11. 训练集(training set)
  12. 假设(hypothesis)
  13. 真相/真实(ground-truth)
  14. 学习器(learner)
  15. 预测(prediction)
  16. 标记(label)
  17. 样例(example)
  18. 标记空间(label space)
  19. 分类(classification)
  20. 二分类(binary classification)
  21. 正类(positive class)/ 反类(negative class)
  22. 多分类(multi-class classification)任务
  23. 回归(regression)
  24. 测试(testing)
  25. 测试样本(testing sample)
  26. 聚类(clustering)
  27. 簇(cluster)
  28. 监督学习(supervised learning)/ 无监督学习(unsupervised learning)
  29. 泛化(generalization)/ 特化
  30. 分布(distribution)
  31. 独立同分布(independent and identically distributed)
  32. 归纳(inducting)
  33. 归纳学习(inductive study)
  34. 演绎(deduction)
  35. 概念(concept)
  36. 版本空间(version space)
  37. 归纳偏好
  38. 奥卡姆剃刀(Occam’s razor):若有多个假设与观察一致,则选最简单的那个
  39. 没有免费的午餐定理(No Free Lunch Theorem,NFL)

释义:

  1. 记录 / 样本(sample)/ 示例(instance):关于一个事件或对象的描述,如(色泽=青绿;根蒂=蜷缩;敲声=浊响)是一条记录
  2. 数据集(data set):一组记录的集合
  3. 属性(attribute)/ 特征(feature):反映事件或对象在某方面的表现或性质的事项,如色泽就是西瓜的一个属性
  4. 属性值(attribute value)::属性上的取值
  5. 属性空间(attribute space)/ 样本空间(sample space)/ 输入空间:属性张成的空间,如把色泽、根蒂、敲声作为三个坐标轴,则可张成一个用户描述西瓜的三维空间
  6. 特征向量(feature vector):由于样本空间中的每个点对应一个坐标向量,因此一个示例也称为一个特征向量
  7. 维数(dimensionality):以西瓜的属性空间为例,西瓜的属性个数就是维数
  8. 学习(learning)/ 训练(training):从数据中学得模型
  9. 训练数据(training data):训练过程中使用的数据
  10. 训练样本(training sample):训练过程中的样本
  11. 训练集(training set):训练样本组成的集合
  12. 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
  13. 真相/真实(ground-truth):上述的潜在规律
  14. 学习器(learner):模型,可看作学习算法在给定数据和参数空间上的实例化
  15. 预测(prediction):书上没得啊这个,这个就不用解释了吧
  16. 标记(label):样本的结果信息,比如“好瓜”
  17. 样例(example):有标记信息的示例,比如被标记为“好瓜”的西瓜
  18. 标记空间(label space):所有标记的集合,如{好瓜,坏瓜}
  19. 分类(classification):预测结果是离散值的学习任务;比如「预测西瓜是好瓜还是坏瓜」这是一个分类任务
  20. 二分类(binary classification):只涉及两个类别的分类任务;上述例子也是一个二分类任务
  21. 正类(positive class)/ 反类(negative class):二分类任务中的类别,通常一个叫正类一个叫反类
  22. 多分类(multi-class classification)任务:就是不止两个类别的分类任务
  23. 回归(regression):预测结果为连续值的学习任务;比如「预测西瓜的成熟度」,结果可能是0-100%之间的任意值
  24. 测试(testing):学得模型后,使用其进行预测的过程
  25. 测试样本(testing sample):测试时被预测的样本
  26. 聚类(clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
  27. 簇(cluster):一组类似的数据对象的集合
  28. 监督学习(supervised learning)/ 无监督学习(unsupervised learning):训练数据是否拥有标记信息
  29. 泛化(generalization)/ 特化:泛化时特殊到一般,特化是一般到特殊;学得模型适用于新样本的能力称为泛化能力
  30. 分布(distribution):这里应该是指概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小,若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布
  31. 独立同分布(independent and identically distributed):在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布
  32. 归纳(inducting):由一系列具体的事实概括出一般原理
  33. 归纳学习(inductive study):从样例中学习;狭义又叫概念学习或概念形成
  34. 演绎(deduction):在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理
  35. 概念(concept):受判断所产生的对事物的理解
  36. 版本空间(version space):与训练集一致的假设的集合
  37. 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
  38. 奥卡姆剃刀(Occam’s razor)原则:若有多个假设与观察一致,则选最简单的那个
  39. 没有免费的午餐定理(No Free Lunch Theorem,NFL):由于对所有可能函数的相互补偿,最优化算法的性能是等价的。可证得无论算法多好在没有实际背景情况下都不优于随机胡猜。NFL定理最重要意义是,在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。

关于奥卡姆剃刀原则:是由14世纪英格兰的逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出。这个原理称为“如无必要,勿增实体”,即“简单有效原理”。正如他在《箴言书注》2卷15题说“切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。”

发布了138 篇原创文章 · 获赞 168 · 访问量 32万+

猜你喜欢

转载自blog.csdn.net/qq_24734285/article/details/103000736