基于B-gram句子概率计算实现

其他 2018-09-04 10:21:38 阅读次数: 0

基于B-gram句子概率计算实现

概述

该“句子出现概率计算”基于B-gram算法，若不了解请自行百度。

如果急于使用，请下载笔者已经训练好的模型文件（model.txt，置于项目根目录）；如果想自行训练，可以使用语料库（千万级巨型汉语词库）；下面是下载地址：

项目链接：ProbabilityOfSentence

语料链接：https://pan.baidu.com/s/1c3WWoxi 密码：uypd

由于笔者所使用的语料库是基于词语的，所以对于词语的计算效果更佳，但是常规句子的计算可能并不理想，建议自行寻找语料库进行训练。

说明

输入为文本文件（一句一行或者一段一行），支持批量语料输入，可以多次或者单次调用addCorpus方法进行设置。

训练好之后会自行保存模型文件（命名为“model.txt”）到项目根目录。如果不配置输入语料且根目录保存有模型文件，则会直接导入模型文件。

B-gram采用的平滑处理手段是“add one smoothing”，但是并非真的加一，可以加一个大于0小于1的数，该参数使用setAddOne方法进行设置。

最后使用goIntoEffect方法让所有设置生效。

使用probability方法计算句子的概率，该方法可选的第二个参数len表示进行平均计算的字符长度，即每len个连续字符计算一次，之后取平均。

// 使用语料库进行训练计算
ProbabilityOfSentence prob = new ProbabilityOfSentence()
        .addCorpus("千万级巨型汉语词库/data")
        .setAddOne(Math.pow(10, -10))
        .goIntoEffect();
System.out.println(prob.probability(sentence));
System.out.println(prob.probability(sentence, 6));

// 导入模型文件进行计算
ProbabilityOfSentence prob = new ProbabilityOfSentence()
        .goIntoEffect();
System.out.println(prob.probability(sentence));
System.out.println(prob.probability(sentence, 6));

猜你喜欢

转载自blog.csdn.net/Subson/article/details/79192919

基于B-gram句子概率计算实现

n-gram语言模型——句子概率分布计算与平滑

基于N-Gram判断句子是否通顺

NLP：N-Gram(gram窗口分段再统计)基于概率/统计算法的简介、案例应用之详细攻略

n-gram python实现（基于sklearn）

基于TensorFlow实现Skip-Gram模型

基于熵的方法计算句子相似度

JAVA实现概率计算

什么是语言模型（计算自然语言每个句子的概率的数学模型）？

Xlnet句向量实现(embedding)与句子相似度计算

B. Two-gram

句子相似度的计算

使用Mxnet基于skip-gram模型实现word2vect

【自然语言处理（NLP）】基于Skip-gram实现Word2Vec

概率计算

基于余弦夹角计算句子相似度的应用——房型名称匹配

基于中文主观性知识库的句子主观性计算项目

NLP之WE之Skip-Gram：基于TF利用Skip-Gram模型实现词嵌入并进行可视化、过程全记录

Matlab可调节精度基于几何概率计算pi

基于MATLAB的可靠度指标与失效概率的计算

977B Two-gram

Two-gram（CF-977B）

Codeforces977B——Two-gram

CF977B Two-gram

【计算语言学实验】基于 Skip-Gram with Negative Sampling (SGNS) 的汉语词向量学习和评估

基于OGRE的B超实现

句子相似度计算模型

使用 TF-IDF 加权的空间向量模型实现句子相似度计算

计算一个句子中单词的个数C语言与Python实现

【自然语言处理】基于句子嵌入的文本摘要算法实现

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)