关于kenlm工具训练统计语言模型 - 代码天地

关于kenlm工具训练统计语言模型

编程语言 2018-11-19 10:20:51 阅读次数: 0

版权声明：本文为博主原创文章，欢迎交流分享，未经博主允许不得转载。 https://blog.csdn.net/HHTNAN/article/details/84231733

概述

统计语言模型工具有比较多的选择，目前使用比较好的有srilm及kenlm，其中kenlm比srilm晚出来，训练速度也更快，而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。

特征

“语言行业最大的改进是增加了新的语言模型KenLM，它快速，节省内存，最重要的是，允许在开源许可下使用多核处理器。”

比SRILM和IRSTLM 更快，更低的内存。
使用用户指定的RAM 进行磁盘估计。
用于时空权衡的两种数据结构。
mmap的二进制格式。或直接加载ARPA文件。
如果安装了相应的库，它还可以读取使用gzip，bzip2或xz压缩的文本和ARPA文件。
线程安全的。
更多假设重组的机会。如果模型退避，则State仅存储匹配的单词。FullScore函数还返回模型匹配的n-gram长度。
查询几乎没有依赖：C ++编译器和POSIX系统调用。过滤和估算是多线程的，因此它们依赖于Boost。
支持任何大于一的订单的模型（订单>= 7时需要重新编译）。彻底的错误处理。例如，ARPA解析错误包括消息，有问题的字符串，字节偏移量和文件名。与IRSTLM比较。
加载进度条。
试验。这些取决于Boost。查询支持包含令牌的n-gram; 这些出现在用限制词汇构建的模型中。
许可许可证意味着您可以分发它而不像SRILM。在下载之前没有要填写的表单。

相关安装操作参照：https://blog.csdn.net/HHTNAN/article/details/84103070
n元分词法参见:https://blog.csdn.net/HHTNAN/article/details/62046652

参考资料：

论文-PPT:http://kheafield.com/code/kenlm/

猜你喜欢

转载自blog.csdn.net/HHTNAN/article/details/84231733

关于kenlm工具训练统计语言模型

使用kenlm工具训练统计语言模型

使用KenLM训练统计语言模型并使用模型（based on Linux14.04）

N-Gram语言模型工具kenlm的详细安装教程

自然语言处理 | (13)kenLM统计语言模型构建与应用

语言模型训练工具SRILM

kenlm语言模型相关，c++、python相关接口

nlp 统计语言模型

统计语言模型

训练语言模型

自然语言--kenlm环境搭建

kaldi 模型训练工具整理

笔记(总结)-统计语言模型

NLP-统计语言模型

统计语言模型Python实现

使用RNN训练语言模型

NLP预训练语言模型

预训练语言模型（一）

SRILM训练语言模型实战

预训练语言模型综述

训练大语言模型的步骤

关于使用tensorflow object detection API训练自己的模型-补充部分（代码，数据标注工具，训练数据，测试数据）

构建语言模型（二）：模型训练与评估

自然语言（NLP）处理流程—IF-IDF统计—jieba分词—Word2Vec模型训练使用

使用kenlm工具常见错误以及解决方案

自然语言处理-错字识别（基于Python）kenlm、pycorrector

04 统计语言模型（n元语言模型）

关于YOLO系列模型训练的那些事

工具篇Flair之训练模型教程

工具篇Flair之训练模型教程

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)