关于我终于开始学习图像生成文字这件事----模型评价

评测指标

  1. BLEU score :不是一种直观的评价方法,只能大概的指出好还是不好
  2. 图像检索:更不是一种直观的评价方法
  3. 人工评测:比赛是专家来对模型结果进行打分

BLEU score:

N-gram Math: 是一个N-gram的加权和
gram:是一个词
N-gram:是N个词组成一个向量
指标:Math_items / all items in result
Math_items: N-gram 组成的向量中预测和实际相同的个数
all items in result :预测向量的词语数
请添加图片描述
计算完按照权重相加
请添加图片描述

但是会有个缺陷

  1. 如果在1-gram中预测的值都相同但是在实际情况中只出现一次请添加图片描述
    其1-gram:5/5 = 1 评价会认为这种情况是完全匹配上的

进行改进:

Min(matched_items,match_items_in_gt)/items in result

Min(匹配成功数量,该值在实际中出现的次数)

Correct 1-gram = 1/5

  1. all items in result :预测向量的词语数 会导致模型倾向于短句请添加图片描述
    添加短句惩罚
    请添加图片描述
    利用BP来控制评价大小

Guess you like

Origin blog.csdn.net/qq_45795305/article/details/121804008