机器学习学习小结（2）

1. 相比于学习小结中的（1）中所说的类型，这里涉及常用的文本文章中的词袋法和TF-IDF。

1）词袋法：文本中出现的词条及其出现次数。

例如单词A、B、C...，怎么得到对应的出现频率呢？有两种方法：

a）在整个文档中考虑所有的词汇，得到每个词汇出现的次数，计算频率；

b）只在对应领域内的专业词汇的范围内考虑，得到在该范围内对应词汇出现的频率。

将次数/频率及对应的单词以字典的形式进行表示。

优劣点：

优：比较简单；

劣：仅依靠频率，不能突出对应词条的重要性（例如含有SVM、回归的文章（语料库）中都有“机器学习”的词汇，虽然词汇“机器学习”出现的次数比较多，但是想要突出SVM、回归）。因而，有了TF-IDF。

2）TF-IDF

扫描二维码关注公众号，回复： 2884154 查看本文章

重点注意语料库（所有文档）、TF（在一篇文档中出现的频率）、IDF（文档出现次数越多，越不重要，数值较大的时候常取对数，不大的话不用取）。

2. 模型的训练与测试

常采用交叉验证的方法。

尽可能多的在模型上运行更多的算法，以比较测试的结果。

测试的评估指标：准确率（Accuracy）：正确的正确样本占总样本的比重；

召回率（Recall）：正确的正例样本/样本中的真实正例数；

精确率（Precision）：正确的正例样本/预测是正例的样本数；

F值：召回率和精确率的调和级数（召回率和精准率一个增加，一个减小，要综合考虑引入F值）。

正确样本：正确的正例和负例样本。

ROC的纵轴是“真正例率（TPR：True Positive Rate）”（即A/(A+C)），横轴是“假正例率（FPR：False Positive Rate）”（即C/(C+D)）。其中，“混淆矩阵”即之前的评估指标。当样本不平衡的时候，这种模型评价方式比较好。

常用ROC曲线围成的面积表示模型的好坏，即

除了上面的评估标准之外，还有别的特定指标，如对于回归模型有：方差、平均绝对误差、均方差等。其中，R平方值=回归平方和(ssreg)/总平方和(sstotal)，回归平方和=总平方和-残差平方和。

3. 模型的部署与上线

A/B测试：分为原系统和新系统（增添机器学习后的系统），用户也按照一定比例进行划分（如3:7，3用于原系统，7用于新系统）。进行测试，根据反馈结果看新系统相比于原系统是否有改进，若有改进则将用户比例进一步修改（如1:9，逐步过渡）；若没有改进，则将暂时依然沿用原系统，100%的用户使用原系统，进一步改进模型，再上线再进行测试。

4. 之前介绍的内容是机器学习项目开发的大致流程，接下来将介绍算法。

回归算法（介绍的第一个算法）：

1）对残差的假设

2）极大似然概率、目标函数

要得到最大似然概率，对应的就是使得目标函数最小（m是给定的，即回归方程中的自变量个数）。

3）最小二乘法求线性回归的最优参数

a. 推导过程

b. $\lambda$ 是比较小的数。

机器学习学习小结（2）

猜你喜欢