NLP浅层次模型之N-Gram词袋法 - 代码天地

NLP浅层次模型之N-Gram词袋法

其他 2021-03-22 12:17:11 阅读次数: 0

算法简介：
n-gram 是从一个句子中提取的 N 个（或更少）连续单词的集合。这一概念中的“单词”也可以替换为“字符”。
下面来看一个简单的例子。考虑句子“The cat sat on the mat.”（“猫坐在垫子上”）。它可以被分解为以下二元语法（2-grams）的集合。

{"The", "The cat", "cat", "cat sat", "sat",
　 "sat on", "on", "on the", "the", "the mat", "mat"}

这个句子也可以被分解为以下三元语法（3-grams）的集合。

{"The", "The cat", "cat", "cat sat", "The cat sat",
　 "sat", "sat on", "on", "cat sat on", "on the", "the",
　 "sat on the", "the mat", "mat", "on the mat"}

这样的集合分别叫作二元语法袋（bag-of-2-grams）及三元语法袋（bag-of-3-grams）。这里袋（bag）这一术语指的是，我们处理的是标记组成的集合，而不是一个列表或序列，即标记没有特定的顺序。这一系列分词方法叫作词袋（bag-of-words）。
浅析：
词袋是一种不保存顺序的分词方法（生成的标记组成一个集合，而不是一个序列，舍弃了句子的总体结构），因此它往往被用于浅层的语言处理模型，而不是深度学习模型。在使用轻量级的浅层文本处理模型时（比如 logistic 回归和随机森林），n-gram 是一种功能强大、不可或缺的特征工程工具。
提取 n-gram 是一种特征工程，深度学习不需要这种死板而又不稳定的方法，并将其替换为分层特征学习。

—— 摘录自《Python 深度学习》

猜你喜欢

转载自blog.csdn.net/ManWZD/article/details/108769833

NLP浅层次模型之N-Gram词袋法

文本向量化 - 词袋模型， N-gram 特征

【NLP】如何理解n-gram模型

N-gram模型

自然语言处理NLP中的N-gram模型

NLP学习记录4——n-gram模型（待整理）

理解n-gram模型

N-gram模型简介

N-gram 语言模型

N-gram语言模型

NLP之文本表示-词袋模型

NLP task2 N-Gram

通俗讲：自然语言处理（NLP）入门之N-gram语言模型。（朴素贝叶斯分类器的推导）

神经网络语言模型之N-gram

pytorch：词嵌入和n-gram

NLP基础知识（语法语义、LDA、N-gram、词嵌入）

词向量的Distributed Representation与n元语法模型(n-gram model)

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

NLP task2 _ 自然语言处理中N-Gram模型的Smoothing算法

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

「X」Embedding in NLP｜Token 和 N-Gram、Bag-of-Words 模型释义

n-gram模型中的平滑方法

N-gram语言模型 & Perplexity & 平滑

n-gram语言模型及平滑算法

对语言模型N-gram的理解

基于n-gram模型的中文分词

从n-gram到Bert聊一聊词向量：神经概率语言模型

Spark ml之N-Gram

N-gram算法

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)