为什么使用神经网络训练得到的语言模型不需要做数据平滑 - 代码天地

为什么使用神经网络训练得到的语言模型不需要做数据平滑

其他 2018-11-04 10:11:20 阅读次数: 0

版权声明：本文为博主jmh原创文章，未经博主允许不得转载。 https://blog.csdn.net/jmh1996/article/details/83001702

我们都知道，在自然语言处理的语言模型里面，最核心的就是计算得到一个句子的概率，为了得到这个概率，我们需要计算得到一系列的条件概率。这些条件概率就是整个语言模型的参数。
为了得到条件概率，我们可以有两种不同的方法。
第一种就是使用统计概率方法，通过统计的方法得到不同的词对的条件概率。这种方式简单易行，但是此类方式很容易因为语料库的稀疏，而导致某些词对并没有出现在语料库而导致某些条件概率为0。
举个栗子：
给定以下语料:

John read a book.
Tom read a novel.
A novel was read by Catter.
Cherry was singing a song.
John was singing a song.
Tom was singing a song.

当计算S=Cherry read a book，这个句子的概率的时候，我们需要对P(read|Cherry)这个条件概率进行平滑，否则这个概率就为0了。
为了解决条件概率为0的问题，人们提出了一系列条件概率数据平滑方法。
因此，语料稀疏导致的某些词对没有出现而使得该词对的条件概率为0，进而采用数据平滑处理。
第二种方式则基于神经网络的方法来得到这些词对的条件概率。使用神经网络的方法进行训练的时候，一方面，我们可以得到语言模型（即那一堆条件概率），另一方面我们也自然而然地获得了这些词的词向量。当获得这些词向量，那就好办了。这些词向量是具有语义相关性的。因此，针对上面的语料库，我们会发现最终John,Tom,Cherry这些词的词向量是很相近的。于是当我们想通过神经网络获取条件概率P(read|Cherry)的时候，我们输入的是Cherry的词向量，尽管语料库没有出现Cherry read 这样的词对，模型依然会认为我们输入了一个类似于John和Tom那样的词，而John read 和 Tom read是在语料库出现过的。进而，P(read|Cherry)无需额外平滑也不为0 。

猜你喜欢

转载自blog.csdn.net/jmh1996/article/details/83001702

为什么使用神经网络训练得到的语言模型不需要做数据平滑

训练神经网络为什么要把训练数据打乱？

java为什么不需要sizeof()

为什么ruby不需要await

为什么吹牛不需要缴税？

为什么需要深度神经网络

为什么需要神经网络？

如何使用kaldi训练得到录制音频的mfcc数据

关于MATLAB使用Deep Learning toolbox(深度网络设计器)训练得到的模型无法使用classify进行分类的问题

为什么tomcat需要(不需要)集成apache

学习笔记：基于tensorflow的一个简单的神经网络例子:训练得到y=Wx+b中W和b值

神经网络中的激活函数为什么都是平滑或近似平滑的？

神经网络为什么需要随机初始化模型参数

为什么SpringBoot中不需要使用@EnableTransactionManagement就能使用事务？

Java为什么基本数据类型不需要进行创建对象？

为什么在点数少的时候不需要使用多线程

为什么使用imp.load_source（）-----将模块导入而不需要重复的添加路径

mybati为什么不需要实现类，但是还是使用的JDK代理

为什么 Linux 不需要碎片整理

为什么free()时不需要传指针大小

NumberFormatException异常为什么不需要捕获？

为什么ConcurrentHashMap的读操作不需要加锁？

比特币为什么不需要背书？

python 中为什么不需要重载

spring 为什么不需要CGLIB包

rocketMQ producer 发送消息，为什么不需要加锁？

为什么 ConcurrentHashMap 的读操作不需要加锁？

我们为什么不需要BNB？

为什么 Mac 地址不需要全球唯一

I/O操作为什么不需要cpu

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)