python-Rouge_N-评估模型的实现 - 代码天地

python-Rouge_N-评估模型的实现

其他 2019-04-19 19:27:28 阅读次数: 0

版权声明： https://blog.csdn.net/bensonrachel/article/details/83832155

引用：Rouge(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

ROUGE准则由一系列的评价方法组成，包括ROUGE-N(N=1、2、3、4，分别代表基于1元词到4元词的模型)，ROUGE-L，ROUGE-S, ROUGE-W，ROUGE-SU等。在自动文摘相关研究中，一般根据自己的具体研究内容选择合适的ROUGE方法。

不难看出，ROUGE公式是由召回率的计算公式演变而来的，分子可以看作系统生成摘要与标准摘要相匹配的N-gram个数，分母可以看作标准摘要中所有的N-gram个数。

import jieba
#使用jieba进行分词
def Rouge_1(model, reference):#terms_reference为参考摘要，terms_model为候选摘要   ***one-gram*** 一元模型
    terms_reference= jieba.cut(reference)#默认精准模式
    terms_model= jieba.cut(model)
    grams_reference = list(terms_reference)
    grams_model = list(terms_model)
    temp = 0
    ngram_all = len(grams_reference)
    for x in grams_reference:
        if x in grams_model: temp=temp+1
    rouge_1=temp/ngram_all
    return rouge_1

def Rouge_2(model, reference):#terms_reference为参考摘要，terms_model为候选摘要   ***Bi-gram***  2元模型
    terms_reference = jieba.cut(reference)
    terms_model = jieba.cut(model)
    grams_reference = list(terms_reference)
    grams_model = list(terms_model)
    gram_2_model=[]
    gram_2_reference=[]
    temp = 0
    ngram_all = len(grams_reference)-1
    for x in range(len(grams_model)-1):
         gram_2_model.append(grams_model[x] + grams_model[x+1])
    for x in range(len(grams_reference)-1):
         gram_2_reference.append(grams_reference[x] + grams_reference[x + 1])
    for x in gram_2_model:
        if x in gram_2_reference:temp=temp+1
    rouge_2=temp/ngram_all
    return rouge_2

def Rouge(model, reference):
    print("rouge_1="+str(Rouge_1(model, reference)))
    print("rouge_2="+str(Rouge_2(model, reference)))


#Rouge("我的世界是光明的","光明给我的世界以力量")

以上。

猜你喜欢

转载自blog.csdn.net/bensonrachel/article/details/83832155

python-Rouge_N-评估模型的实现

LLM - 大模型评估指标之 ROUGE

LLMs NLP模型评估Model evaluation ROUGE and BLEU SCORE

分类模型评估的方法及Python实现

【LLM评估篇】Ceval | rouge | MMLU benchmarks

【深度学习】序列生成模型（六）：评价方法计算实例：计算ROUGE-N得分【理论到程序】

LLMs：LLMs大语言模型评估的简介(六大维度)、常见评估基准—单任务评估基准(BLEU/ROUGE)+多任务评估基准(SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C

线性回归实现及模型评估

python学习-114-自动文本摘要Rouge评价体系实现(很简单)

机器学习——线性回归（数学原理推导+Python代码实现+模型评估+实验分析）

Python机器学习——模型评估（四）

模型评估

模型评估：模型状态评估

【TensorFlow】实现、训练并评估简单的回归模型和分类模型

【A】python数据分析与机器学习实战如何评估机器学习模型（评估模型性能）

Python实现N阶乘

模型评估与模型选择

python—Rouge（Recall-Oriented Understudy for Gisting Evaluation）

机器学习：模型评估与sklearn实现(二)_交叉验证

机器学习：模型评估与sklearn实现(一)_留出法

【机器学习】：模型评估与性能度量及sklearn中的实现

[python 机器学习书笔记]模型评估与改进

在PYTHON中使用TMTOOLKIT进行主题模型LDA评估

评估深度学习模型-基于keras的python学习笔记（二）

Python机器学习（七十九）Keras 评估模型

Python机器学习中的模型选择和评估

Python实现 N*N 乘法表

Python 实现n*n螺旋矩阵

A.深度学习基础入门篇[二]：机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

口诀的N种python实现

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)