(9) Natural Language Processing with Pytorch: An Introd

作者:禅与计算机程序设计艺术

1.简介

: Natural language processing(NLP)是一种自然语言处理领域中的一个重要分支,其目的是使计算机“懂”人类语言、理解并生成类似于人类的语言。在过去几年里,深度学习技术的发展为NLP提供了更高的准确性和可靠性。本文将对PyTorch中用于NLP的主要模块进行介绍,从而帮助读者了解NLP及其在深度学习中的应用。

2.基本概念术语说明:首先,让我们回顾一下NLP的基本概念:

  • 文本:文字或语句组成的集合。
  • 词:指的是单个词汇。例如:“Hello”,“world”。
  • 句子:一组单词或者短语组成的完整语句。例如:“The quick brown fox jumps over the lazy dog。”
  • 文档:通常是一个完整的句子、段落或篇章。可以认为是一篇文章。
  • 语料库:由大量的文档构成的总体资料库。例如,维基百科语料库。
  • 标记化:把文本中的每个字符都标记上不同的标签(如:名词、动词等)。标记化会根据上下文赋予不同的含义,从而提高了文本的表达能力。
  • 停用词:一些在文本分析时无用的词。例如,“the”, “a”, “an”。
  • N-gram:一组连续的单词。例如:“the quick brown”就是一组三元词。
  • TF-IDF:Term Frequency–Inverse Document Frequency。统计每一个词在文档中出现的频率,然后计算出每个词对

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132438422