- 不平衡数据下的机器学习方法简介
- 半监督学习中的协同学习
- LDA模型主题模型
- 自然语言处理(http://www.52nlp.cn/tag/lda)
dssm(论文地址https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/?from=http%3A%2F%2Fresearch.microsoft.com%2Fapps%2Fpubs%2Fdefault.aspx%3Fid%3D198202)
资料一
https://blog.csdn.net/u013074302/article/details/76422551本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用。
资料二
http://kubicode.me/2017/04/21/Deep%20Learning/Study-With-Deep-Structured-Semantic-Model/
DSSM最大的卖点在检索场景下 使用点击数据来训练语义层次的匹配,简单的来说,传统检索场景下的匹配主要有:
字面匹配:TFIDF、BM25等
使用LSA类模型进行语义匹配,但是效果不好
上图中的Semantic feature 可用作词向量。这也是DSSM的优势之一。
DSSM的优势:
DSSM看起来在真实检索场景下可行性很高,一方面是直接使用了用户天然的点击数据,出来的结果可行度很高,另一方面文中的doc可以使用title来表示,同时这个部分都是可以离线进行语义向量计算的,然后最终query和doc的语义相似性也是相当诱人
DSSM出的结果不仅可以直接排序,还可以拿中间见过做文章:semantic feature可以天然的作为word embedding。
资料三:
代码分析
https://blog.csdn.net/zkq_1986/article/details/79128844
进度条:基本了解,论文未看,代码未看。
LDA模型主题模型
https://blog.csdn.net/huagong_adu/article/details/7937616
不平衡数据下的机器学习方法简介
https://www.jianshu.com/p/3e8b9f2764c8