NLP学习笔记九-机器翻译-seq2seq模型 - 代码天地

NLP学习笔记九-机器翻译-seq2seq模型

物联网 2023-07-15 17:21:22 阅读次数: 0

NLP学习笔记九-机器翻译-seq2seq模型

seq2seq模型是做机器翻译任务的，根据名字其实我们也能有一些推测seq 2 seq，其实就是sequence to sequence，从一个序列到另一个序列，所以seq2seq模型其实不止可以做机器翻译，还可以做序列转换，序列编码这些任务。
seq2seq模型跟lstm模型有很大关系。
拿英语翻译成德语为例。
seq2seq模型结构如下：

在这里插入图片描述

上述的模型其实并不复杂，主要还是需要知晓lstm模型的一些原理，这在之前的博客中，我们做了一些讲解了。
lstm模型最终会输出记忆信息c和最终的输出h，其实我认为，c就是对应RNN里的最终输出h，lstm的最终输出h则是对c进行了一次输出门处理，也就是进行了一次tanh操作和遗忘处理。其实我觉得c中基本上包含了h的信息，但其实lstm只是为了延续RNN模型，按理来说可以只输出记忆信息c的应该就够了。

对于英语翻译德语，我们需要对英语每个字符进行one-hot编码，编码成一个只含有一个1的01向量，比如
a-[1,0,0,0,0,]
为什么不用embeding，因为每个字符没什么相关性，然后，我们将一段文本比如I like apple.输入下属lstm模型。

在这里插入图片描述

上面其实是指lstm模型，说是输入编码，其实就是一个lstm模型，之后该模型会对我们输入的文本向量矩阵进行特征提出得到 $c_1和h_1$ 。
再次基础上，将德语已经翻译好的句子的第一个字符也进行one-hot编码得到t，将（c,h）和t按照lstm模型流程，t作为x输入，（c,h）作为上一个单元得到的记忆信息和输出然后得到德语下一个预测字符，将下一个预测字符作为x，上一次得到的（c,h）再输入，就变成正常的lstm模型了。

在这里插入图片描述

当然，每次都要进行梯度更新参数。我们输入都是按照正确的输入进行输入，再根据预测概率p，求解损失crossEntropy（p,y），去更新网络。

猜你喜欢

转载自blog.csdn.net/weixin_43327597/article/details/131168299

NLP学习笔记九-机器翻译-seq2seq模型

python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

【深度学习】图解机器翻译模型：基于注意力机制的 Seq2Seq

[NLP]使用TensorFlow实现Seq2Seq神经机器翻译（翻译）

机器翻译概述、seq2seq、attention机制

基于seq2seq的机器翻译系统

PyTorch: 序列到序列模型(Seq2Seq)实现机器翻译实战

机器翻译Seq2Seq(Encoder-Decoder)+Attention模型Tensorflow实现

机器翻译及相关技术、注意力机制和Seq2seq模型、Transformer

机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

机器翻译及相关技术 & 注意力机制与Seq2seq模型 & Transformer

在PyTorch中使用Seq2Seq构建的神经机器翻译模型

机器翻译模型（MT、NMT、Seq2Seq with Attention）

机器翻译（Machine Translation)：seq2seq模型+attention机制

机器翻译——Seq2Seq模型到attention机制到Transformer

基于transformer的Seq2Seq机器翻译模型训练、预测教程

ElitesAI·动手学深度学习PyTorch版学习笔记-机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

《动手学深度学习——机器翻译及相关技术，注意力机制与seq2seq模型，Transformer》笔记

NLP学习记录5——seq2seq模型

可视化神经机器翻译模型（基于注意力机制的Seq2seq模型）

9.7. 序列到序列学习（seq2seq）实现机器翻译英语翻译法语

机器学习笔记：seq2seq & attentioned seq2seq

[ DLPytorch ] 注意力机制与Seq2seq模型&Transformer&机器翻译及相关技术

Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

深度有趣 | 26 Seq2Seq机器翻译

基于attention的seq2seq机器翻译实践详解

自然语言处理 - 机器翻译，Seq2seq，Attention

seq2seq and attention模型学习笔记

seq2seq模型笔记

机器学习面试—seq2seq

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)