算法的优劣评估选择-常用方法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zdlxml/article/details/85242260

(1)from <有效HTM L文本信息抽取方法的研究木>

 

为了评估选择算法的优劣,本文采用了两个指标进行评
价,分别是阴性率(false negatives rate,FN)与假阳性率(false
positives rate,FP)。设Ⅳ代表选择的总行数,rg、m分别代表结
果中非文本行的数量与漏选的文本行数量,FN与f'P的计算用
如下公式表示:
FN=m/n.F'P=n/N

其中:FP表示选择过程中选择了错误行的比例;FN表示选择
过程中漏选了正确行的比例。这两个指标经常被用来衡量选
择一类算法的优劣,是非常重要的两个指标。这两个指标与被
用来评估信息检索和TOP·K查询技术的关键指标,即查全率
(precision)和查准率(recall)效果相同,所以选择这两个指标
具有较好的说明力。图3显示了Sina与Sohu两个网站网页的
阈值在0.4一O.6下的FP与FN的效果。

从图3中可以看出两个特征:
a)不同的阈值对选择的效果存在较大的差异。例如图3
(b)中FP在阈值0.42与0.6处相差0.06;(a)中FN在阈值
O.42与0.6处相差0.03。
b)如果选择恰当的阈值,那么可以简单得到较好的FP与
FN;但是每个网站网页的特征不同,阈值需要进行调整。
利用相对固定的阈值控制行的选择,在处理风格相近的网
页有较好的效果,但存在两个问题:a)需要对不同的网页选择
不同的阈值,才可能达到较好的效果;b)虽然选择阈值可以改
善选择效果,但是某些短文本还是被过滤掉了,同样较长的版
权、注释以及与其相关链接却被选择中。
分析固定阈值实验结果,可以触发两个想法:a)可以对网
页进行阈值的自动选择和输出,从丽提高查准率和查全率Ib)
固定的阈值难以处理较长的非文本行以及短文本行,如果针对
网页的上下文进行学习,利用智能方法直观上分析可以提高查
准率和查全率。

猜你喜欢

转载自blog.csdn.net/zdlxml/article/details/85242260