2019秋招面试题-机器学习部分

一、TF-IDF

有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。


某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

二、分类和回归的损失函数

分类:

1、 0-1损失 (zero-one loss)

2、Logistic loss

*********************************************************************

回归:

https://blog.csdn.net/reallocing1/article/details/56292877

MSE: Mean Squared Error 
均方误差是指参数估计值与参数真值之差平方的期望值; 

RMSE 
均方误差:均方根误差是均方误差的算术平方根

MAE :Mean Absolute Error 
平均绝对误差是绝对误差的平均值 
平均绝对误差能更好地反映预测值误差的实际情况.

SD :standard Deviation 
标准差:标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组组数据,标准差未必相同。

猜你喜欢

转载自www.cnblogs.com/kkkky/p/9887405.html
今日推荐