用于web检索的DSSM 论文阅读

摘要

【隐语义模型】doc query 向量相似度
【DSSM】提出的一个判别模型（所以学习思路为：条件分布、模型参数后验概率最大、(似然函数· 参数先验)最大、最大似然）
【Word hashing】提出的一种可以处理海量数据的方法

传统检索场景下的匹配方法：

还有两种方法是对语义模型的拓展：
【点击数据】没懂

【深度自编码器】
- 通过深度学习的方法学习query和doc之间的层级结构
- 不足：因为同样是非监督学习，使得模型效果并不比关键词匹配好太多；模型学习仍然需要大规模矩阵计算

用【 DNN】对给定query下的doc进行排序，即将query 和doc通过非线性映射到一个简单语义空间，然后计算余弦相似性；NN 是一个判别模型，也是非监督学习训练的，但是和潜语义模型不同的是，直接对web doc排序进行优化
用【word hashing】处理 large vocabularies, 将query和doc的高维向量映射到低维向量（基于3个词）

输入：BoW的高维特征，即统计每一个 term 在 query、doc 分别出现的次数（不做归一化处理）。
输出：语义特征空间的低维特征
高维特征不能直接进 DNN，要先通过 word hashing

将一个word，前后加#，然后三个字母的切，这样两个不同的单词会不会产出相同的三元组，论文里面做了统计，说了这个冲突的概率非常的低，500K个word可以降到30k维，冲突的概率为0.0044%

假定query和点击的doc是相关（或者部分相关）的，通过监督学习的方法学习模型参数（即，最大化条件概率：给定query，doc被点击的概率）。目标函数是被点击doc的概率的交叉验证熵。对网络参数{W, b}可导，所以通过基于梯度下降的方法进行优化。

整体流程图

正负样本通过doc是否被点击来标注。正负样本比例1:4，负样本随机采样。论文中，负样本的采样方式对最终结果无明显影响（讲真这是我读此篇论文最大的收获）

发布了120 篇原创文章 · 获赞 35 · 访问量 17万+

私信关注