Kenlm 使用 - 代码天地

Kenlm 使用

其他 2019-10-24 13:36:01 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/lm709409753/article/details/90312298

总结工作中用到及学习的知识，也算自己的一个笔记。

环境准备

#公司环境为Centos7.3yum install gcc gcc-c++yum install boostyum install boost-develyum install zlibyum install zlib-develwget -O - https://kheafield.com/code/kenlm.tar.gz | tar xzmkdir kenlm/buildcd kenlm/build && cmake .. && make -j8cd kenlm/build && make install

语言模型训练

我们通过命令行的方式使用kenlm，在我们的训练集语料上训练语言模型，命令为 lmplz -o 5 <text > text.arpa-o 后面的数字5代表使用N-gram的N取值为5text.arpa 表示kenlm训练得到的文件格式为.arpa格式，名字为text
基于人民日报语料训练：lmplz -o 2 <trainCorpus.txt_utf8> /opt/nlp/corpus/data.arpa注意:必须是分好吃的的语料。

模型压缩

对训练得到的文件进行压缩：将arpa文件转换为binary文件，这样可以对arpa文件进行压缩和序列化，提高后续在python中加载的速度。针对我们训练的到的data.arpa文件其转换命令为：

安装Python Kenlm接口

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple kenlm

使用Kenlm测试

>>> import kenlm>>> model=kenlm.LanguageModel('/opt/nlp/corpus/data.bin')>>> model.score('我们 去 北京 天安门')-18.509431838989258>>> model.score('天安门 去 去 去 去 去 去 北京')-34.48509216308594

智能纠错

主要写我的思路：拿不定冠词 an a 来说事                    ---要使用Kenlm根据英文语料生成arpa文件。@1首先根据句子，判断每个句子包含a an的个数，并生成笛卡尔积序列。@2读入句子，对现在读入的句子进行打分，记录。@3使用生成的笛卡尔积序列，替换原句子中的an a 并根据model.score打分，，如果后面的得分大于@2产生的结果，表示有错误存在，更正。个人微信公众号，分享ml,dl,nlp。

猜你喜欢

转载自blog.csdn.net/lm709409753/article/details/90312298

Kenlm 使用

Kenlm的使用

kenlm使用研究

ubuntu kenlm安装和使用

kenlm安装和使用笔记

使用kenlm工具训练统计语言模型

使用kenlm工具常见错误以及解决方案

NLP（四十八）使用kenlm进行文本纠错

文本纠错库pycorrector和kenlm安装及使用教程

使用KenLM训练统计语言模型并使用模型（based on Linux14.04）

kenlm安装指南

【原创】cython and python for kenlm

kenlm环境搭建

kenlm python模块详解

ubuntu16.04下安装kenlm

自然语言--kenlm环境搭建

关于kenlm工具训练统计语言模型

在windows下安装kenlm遇到的各种问题

pip install kenlm安装错误

[解决方案]Python安装 kenlm 报错

kenlm语言模型相关，c++、python相关接口

自然语言处理-错字识别（基于Python）kenlm、pycorrector

N-Gram语言模型工具kenlm的详细安装教程

自然语言处理 | (13)kenLM统计语言模型构建与应用

pip install kenlm 报错 ‘PyThreadState‘ {aka ‘struct _ts’} has no member named ‘exc_type’

this的使用

使用

的使用

for in 使用

|与|| ,&与&&的使用

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)