文とドキュメントを埋め込みます

リンク：データセットの抽出コード：6cgu

1. A紙REVIEW
2. 2本の論文集中
3. 3つのコードの実装
4.つの問題の考え方

「文とドキュメントの分散表現」
-文章や文書が学習分散
著者：コックルとトーマスMokolov
単位：Googleは
、会議や時間を発表：2014 ICML

紙REVIEW

分散型の文章表現のプロフィール

分散文は、相関方法を表します

事前知識

1.はじめ文分散表現

分散文は言った：分散文と文または段落を（この文章は、均等及びドキュメントより長い文に相当する文書を処理されます）を発現する固定长度的向量表現
意味：あなたは正確にベクターで言葉を表現することができれば、それは直接テキスト分類、情報検索、機械翻訳、およびので、このベクトル場とするために使用することができます

下図のように：
ここに画像を挿入説明

2.文は、分散相関法表す
履歴モデル：

統計的分散表現に基づいて、1文：

バッグ・オブ・言葉
袋の-nグラム

分散表現の深さの調査に基づいて、2文

加重平均
深学習モデル

（1）単語のバッグ
アルゴリズム：

各要素は単語がある語彙、語彙を構築
回数の各語彙単語の単語の、統計がSに表示されます。
各ワードは、Sで語彙に現れる回数は、ワードベクトルテーブルのサイズを構築します

図の例：
ここに画像を挿入説明
反射：バッグ・オブ・ワード欠点、改善する方法
バッグ・オブ・nグラムを（2）は、テーブル内の単語要素はまた、ワードnグラム表現とすることができます

（3）加えて全体平均法：
アルゴリズム：

ビルド語彙、語彙の各要素
使用词向量学习方法（skip-gram等）学习每个词的词向量表示
对于句子s中的每个词（w1,w2,w3,…,wn)对应的词向量（e1,e2,e3,…,en)加权平均，结果为句子的分布式表示：
（下图公式只有平均，没有加权）

（4）深度学习方法：
算法:

构建词表，词表中每个元素都是词
使用词向量学习方法（skip-gram等）学习每个词向量表示
将句子s中的每个向量作为输入送进深度神经网络模型（CNN或RNN),然后通过监督学习，学习每个句子的分布式表示。

模型一般形式如下图，在concatenation部分将句子的每个词进行了加权平均得到了句子的分布式表示
ここに画像を挿入説明

3. 前期知识

熟悉词向量的相关知识
了解使用语言模型训练词向量的方法
训练模型如下图：

二论文精读

论文整体框架

传统/经典算法模型

论文提出改进后的模型

实验结果

讨论和总结

1. 论文整体框架
0.摘要
ここに画像を挿入説明
1.介绍
2.句子分布式表示模型
3.实验
4.相关工作
5.结论

2. 传统/经典算法模型

Bag-of-words
其模型的缺点：
一因为是词袋模型，所以丢失了词之前的位置信息
二句向量知识单纯地利用了统计信息，而没有得到语义信息，或者只得到很少的语义信息
Bag-of-n-gram模型的缺点：
一因为使用了n-gram,所以保留了位置信息，但是n-gram不会太大，最多是4-gram,所以保留的位置信息很少
二 N-gram同样没有学习到语义信息
加权平均法的缺点
对所有的词向量进行平均，丢失了词之前的顺序信息及词与词之间的关系信息
基于深度学习模型的缺点
只能使用标注数据训练每个句子的句向量，这样训练得到的向量都是任务导向的，不具有通用性
基于语言模型的词向量训练
语言模型：语言模型可以给出每个句子是句子的概率：

而每个词的概率定义成n-gram形式，即每个词出现只与前n-1个词有关：

评价语言模型的好坏的指标困惑度（perplexity)
接下来就是基于语言模型的词向量训练
算法：
对于每个词随机初始化一个词向量
取得一个连续的n-1个词，将n-1个词对应的词向量连接（concatenate）在一起形成向量e
将e作为输入，送入一个单隐层神经网络，隐层的激活函数为tanh,输出层的神经元个数为词表的大小
优点：就像原文提到的，即训练出一组词向量，又得到一个语言模型，其次不需要标注数据，可以使用很大的数据集
论文：《A Neural Probabilistic Language Model 》