描述:机器学习相关知识的权威资源
机器学习是非常困难的,因为要掌握多方面的知识。在本月的早些时候进行的一个项目中,我在处理一些简单的数据时,我无论如何也回想不起一个双变量探索技术的名称,尽管我在几个月前刚刚读过。令我沮丧的是,在我眼前并没有一个可以简单获得的信息资源。
在网上花费了很多时间进行查找后,也没有找到符合我想法的资料。所以,我决定创建一份机器学习的工程师指南。一份全面的思维导图,在其中,即使不是所有的概念和方法,但大部分都是对新手和有经验的机器学习工程师非常有用的。
该指南被分为5部分:
- 机器学习数据处理
- 机器学习概念
- 机器学习过程
- 机器学习数学运算
- 机器学习模型
这其中的每一部分将深入讨论它所包含的主题。我现在正在写这本“圣经”。每周都会发布一些章节,并附上相应的“速查表”,以便快速查找。
这儿先尝一下第一部分。等我发布完所有的章节,你唯一需要的事情就是一条毛巾。让我知道,我应该需要添加什么东西!
机器学习数据处理
- 数据类型
- Nominal
- Ordinal
- Interval
- Ratio
- 数据挖掘
• Variable Identification
• Uni-variate Analysis
• Bi-variate Analysis
• Multi-variate Analysis
- 特征清洗
• Missing Values
• Special Values
• Outliers
• Obvious inconsistencies
- Feature Imputation
• Hot-Deck(热卡法)
• Cold-Deck(冷卡法)
• Mean-substitution
• Regression(回归法)
- 特征工程
• Decomposition
• Dicretization
• Reframe Numerical Quantities
• Crossing
- 特征选取
• Correlations
• Dimensionality Reduction
• Importance
- 特征编码
• 标签编码
• 独热码
- 特征归一化
• Re-scaling
• Standardization
• Scaling to unit Length
- 数据集构建
• 训练数据集
• 测试数据集
• 验证数据集
• 交叉验证