Transformer机器翻译模型原理(The transformer model: A neural net

作者:禅与计算机程序设计艺术

1.简介

在过去几年中,深度学习技术取得了突破性的进步。Transformer模型就是其中一种成功的应用。它利用注意力机制解决序列到序列(Sequence to Sequence)任务中的标注学习问题,其性能与传统的循环神经网络(RNN)有很大的差距。本文将从背景、基本概念、模型架构、训练技巧等方面对Transformer模型进行全面的介绍。

2.背景介绍

自动语言识别(Automatic Language Recognition, ALR),意即通过计算机处理某段文字或语音,能够确定其语言种类,是自然语言理解(Natural Language Understanding, NLU)的一个关键子领域。自动语言识别对于很多行业都非常重要,例如电信、互联网、金融、医疗、视频制作、娱乐等领域。同时,越来越多的语言用户正在接受新闻与信息服务,而这些语言信息需要被翻译成他们熟悉的语言,以便于沟通交流。因此,NLU的应用变得更加广泛。

自然语言处理(Natural Language Processing, NLP)的研究,主要集中在两个分支上:词法分析(Lexical Analysis)和句法分析(Syntactic Analysis)。词法分析就是从输入的文本中提取出单词或短语的过程;句法分析则是根据语言规则来构造出结构化的句子,并确定其语义含义的过程。

传统词法分析方法一般依赖字典或者规则集合来进行词性标注,这些方法会带来一些问题:

1.准确率不高,因为字典或者规则集合的准确度有限。 2.无法考虑上下文关系,因为没有考虑不同上

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132681720
今日推荐