评测指标
- BLEU score :不是一种直观的评价方法,只能大概的指出好还是不好
- 图像检索:更不是一种直观的评价方法
- 人工评测:比赛是专家来对模型结果进行打分
BLEU score:
N-gram Math: 是一个N-gram的加权和
gram:是一个词
N-gram:是N个词组成一个向量
指标:Math_items / all items in result
Math_items: N-gram 组成的向量中预测和实际相同的个数
all items in result :预测向量的词语数
计算完按照权重相加
但是会有个缺陷
- 如果在1-gram中预测的值都相同但是在实际情况中只出现一次
其1-gram:5/5 = 1 评价会认为这种情况是完全匹配上的
进行改进:
Min(matched_items,match_items_in_gt)/items in result
Min(匹配成功数量,该值在实际中出现的次数)
Correct 1-gram = 1/5
- all items in result :预测向量的词语数 会导致模型倾向于短句
添加短句惩罚
利用BP来控制评价大小