ASE - Code Search - 代码天地

简介

在这一次的结对编程作业中，我们关注的主题是Code Search，即如何根据用户输入的自然语言，查询得到相关的代码或代码片段。
为了解决这一问题，已经有许多方法被提出，如 CodeHow, CODEnn, CodeNet 等等。这一次作业中，我们选择CODEnn作为我们的baseline,将其复现并尝试提出新的改进。

重现基线模型

CODEnn这一模型由Xiaodong Gu等作者在Deep Code Search一文中提出，其核心思想是把代码和自然语言embed到一个共同的空间，并在这一空间中使用cosine similarity来衡量代码和自然语言的相似度。当用户查询时，返回相似度最高的几个代码片段。其网络结构如图所示：

基本架构

如图中所示，code一共用了三个部分的内容:method name, API 和 token, 这三个部分各自embed得到一个高维空间的向量，再用一个全连接层进行融合，最后得到一个向量代表这一段代码的特征；而desrciption直接通过embed就得到了一个向量，代表输入的自然语言的特征。那么embed阶段是怎么完成的呢？embed阶段有三步：
1）word embedding, 把每一个词汇转化为一个向量，语义相近的词得到的向量距离相近；
2）rnn, 使用rnn来进行sequence embedding, 得到的结果记为 h₁ h₂ ... h_t
3) max pooling, 将h₁ h₂ ... h_t整合成一个向量，也就是output_i = max(h_1i h_2i ... h_ti)
4) 我们发现，token这一部分没有用rnn,而是用了MLP，论文中对此的解释是token在代码中没有严格的顺序，所以不适合用rnn.

模型优缺点

优点：这一个模型有效地利用code与description的语义信息，可以更有效地进行比较、查询；
缺点：maxpooling这一操作显得比较粗糙。在下一部分中，我们也尝试针对这一点进行改进。

复现结果

k	1	5	10
R@k	0.305590	0.590764	0.701910

上表是我们的测试结果，R@K代表在前k个结果中能找到正确答案的几率。我们使用的数据集是py-github，因为数据集与论文中的不同，所以无法直接比较；但通过与其他组的结果对比，可以认为我们基本完成了模型的复现。

尝试提出改进

正如前文所提及的，我们认为maxpooling的方法比较粗糙，会造成比较多的信息丢失，所以我们尝试对这一部分进行改进。

改进方法

maxpooling的目的是将rnn输出的h₁ h₂ ... h_t合并成一个，这里的t并不固定；这些特征正好可以应用attention, 所以我们尝试使用attention的方法来替代maxpooling。
以合并API中rnn的输出为例，我们假设其rnn输出为a₁ a₂ ... a_m，并假设description的rnn输出为d₁ d₂ ... d_n,其过程如下：
1）计算内积: w_ij = a_i^T d_j
2) 使用softmax: b_ij = exp(w_ij) / \(\sum\) exp(w_ij)
3) 计算输出： a_out = a₁ * \(\sum_{j=1}^n\)b_1j + ... + a_m * \(\sum_{j=1}^n\)b_mj

改进实现

因为和原来的方法差别不太大，只替代了max pooling的部分，所以实现起来比较快，也就没有使用源代码管理了；而是和队友一起体验了一下结对编程，两个人一起改。

新模型结果

Unfortunately, 新模型整个垮掉了，在train, val, test上的结果都很差。大概率是我们的代码实现哪个地方出错了，回头还要再找找原因。

结对伙伴

我的结对编程伙伴是帅气多金的安南。在这一次的作业中，安南提出了改进方法并且一同实现了它。不过因为比较忙吧，我们两个人都没有花特别多的时间在这作业上面，一些参数都没有仔细调过。但总体来说，我们还是认真地完成了这次作业。

ASE - Code Search

简介