Word Embedding:词嵌入,是指将词或其他符号表示为实数向量。

作者:禅与计算机程序设计艺术

1.简介

Word embedding是自然语言处理中一个经典且基础的问题。它使得计算机可以从文本、图像、视频等各种形式的自然语言数据中,提取出结构化的特征信息,进而能够进行高效率的机器学习任务。一般来说,词嵌入技术可以用来解决很多自然语言理解、分析、生成任务中的关键性问题。如:1)词义、情感、相似度计算;2)命名实体识别及消岐分割;3)文档摘要、问答系统等。

词嵌入是一种无监督学习方法,通过对大规模语料库的预训练过程获得语义特征。利用词嵌入模型可以将文本转化为数字特征,并据此构建各种语言模型和神经网络模型,实现诸如文本分类、聚类、检索等应用。近年来,词嵌入技术在自然语言处理、计算机视觉、生物信息学、推荐系统等领域都得到了广泛的应用。

目前,词嵌入技术主要由两大类模型:

  • Continuous Bag of Words (CBOW) 模型
  • Skip-Gram 模型 两种模型各有特点,具体选择哪种模型、如何选择优化目标和超参数,还需要根据实际情况进行调整和测试。以下我们着重介绍基于CBOW模型的词嵌入算法,并具体阐述其基本原理和相关操作步骤。

2.基本概念、术语说明

2.1 语料库与单词表

首先,我们需要准备好用于训练词嵌入模型的语料库,这个语料库通常是一个很大的文本文件,里面包含了若干篇文章或者句子。其次,为了能够将单词映射到连续的实数空间上,我们需要创建一个单词表。这个单词表就是词汇表(vocabulary),它包含了所有的单词(包括停用词、标点符号等)。每个单词都有一个唯一

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132288971