机器学习学习小结(2)

1. 相比于学习小结中的(1)中所说的类型,这里涉及常用的文本文章中的词袋法和TF-IDF。

1)词袋法:文本中出现的词条及其出现次数。

例如单词A、B、C...,怎么得到对应的出现频率呢?有两种方法:

a)在整个文档中考虑所有的词汇,得到每个词汇出现的次数,计算频率;

b)只在对应领域内的专业词汇的范围内考虑,得到在该范围内对应词汇出现的频率。

将次数/频率及对应的单词以字典的形式进行表示。

优劣点:

优:比较简单;

劣:仅依靠频率,不能突出对应词条的重要性(例如含有SVM、回归的文章(语料库)中都有“机器学习”的词汇,虽然词汇“机器学习”出现的次数比较多,但是想要突出SVM、回归)。因而,有了TF-IDF。

2)TF-IDF

扫描二维码关注公众号,回复: 2884154 查看本文章

重点注意语料库(所有文档)、TF(在一篇文档中出现的频率)、IDF(文档出现次数越多,越不重要,数值较大的时候常取对数,不大的话不用取)

2. 模型的训练与测试

常采用交叉验证的方法。

尽可能多的在模型上运行更多的算法,以比较测试的结果。

测试的评估指标:准确率(Accuracy):正确的正确样本占总样本的比重;

                             召回率(Recall):正确的正例样本/样本中的真实正例数;

                             精确率(Precision):正确的正例样本/预测是正例的样本数;

                             F值:召回率和精确率的调和级数(召回率和精准率一个增加,一个减小,要综合考虑引入F值)。

正确样本:正确的正例和负例样本。

  ROC的纵轴是“真正例率(TPR:True Positive Rate)”(即A/(A+C)),横轴是“假正例率(FPR:False Positive Rate)”(即C/(C+D))。其中,“混淆矩阵”即之前的评估指标。当样本不平衡的时候,这种模型评价方式比较好。

常用ROC曲线围成的面积表示模型的好坏,即

除了上面的评估标准之外,还有别的特定指标,如对于回归模型有: 方差、平均绝对误差、均方差等。其中,R平方值=回归平方和(ssreg)/总平方和(sstotal),回归平方和=总平方和-残差平方和。

3. 模型的部署与上线

A/B测试:分为原系统和新系统(增添机器学习后的系统),用户也按照一定比例进行划分(如3:7,3用于原系统,7用于新系统)。进行测试,根据反馈结果看新系统相比于原系统是否有改进,若有改进则将用户比例进一步修改(如1:9,逐步过渡);若没有改进,则将暂时依然沿用原系统,100%的用户使用原系统,进一步改进模型,再上线再进行测试。

4. 之前介绍的内容是机器学习项目开发的大致流程,接下来将介绍算法。

回归算法(介绍的第一个算法):

1)对残差的假设

2) 极大似然概率、目标函数

要得到最大似然概率,对应的就是使得目标函数最小(m是给定的,即回归方程中的自变量个数)。

3)最小二乘法求线性回归的最优参数

a. 推导过程

b. \lambda是比较小的数。

猜你喜欢

转载自blog.csdn.net/qq_33335553/article/details/81559096