论文阅读：Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning - 代码天地

论文阅读：Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning

企业开发 2023-06-24 20:07:25 阅读次数: 0

论文题目与链接：

[2002.10198] Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning (arxiv.org)

论文简要脉络：

任务定义：

代码摘要 (code summarization)：给定代码片段，生成简要描述。
代码检索（code retrieval）：给定描述，检索相关的代码片段。

当前存在问题：

以上两个任务都是旨在建立自然语言描述和代码语言自建的关系，因此近期很多研究中会将上述任务进行联合以提升各自的性能。然而现有的融合工作通常单独训练或者串行两个任务，没有有效利用两个任务内在的联系，因而两个任务的性能很难得到均衡提升。

归结起来两个主要问题：

1. 代码检索和代码摘要模型性能难以得到平衡。

2. 模型融合过程过于复杂，难以训练收敛。

方案：

针对这两个任务，本文通过引入一个额外的代码生成任务提出一个端对端的方法融合方案。特别地，本文通过对偶学习（dual learning）显式挖掘了代码摘要和代码生成之间的概率关联关系，利用两个编码器进行代码摘要和代码生成，通过多任务学习的架构训练代码检索模型。

效果：

在SQL 和Python的公开数据集上，代码检索性能超过了 SOTA 性能，在代码摘要任务上也获得了优异的 BLEU score 评分。

本文贡献：

提出一种简洁有效的端对端模型，通过引入代码生成任务辅助代码摘要和代码检索任务的融合。通过对偶学习和多任务学习挖掘任务之间的内在关联。
实验证明了本算法的有效性，代码检索性能超过了 SOTA 性能，在代码摘要任务上也获得了优异的 BLEU score 评分。
通过消融实验和案例分析证明了引入代码生成和对偶学习可以在语音的层面更好地表示源代码和文本语言。

猜你喜欢

转载自blog.csdn.net/yangyehuisw/article/details/127445701

论文阅读：Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning

论文-《Towards Optimal Binary Code Learning via Ordinal Embedding》

【论文阅读ACL2020】Leveraging Graph to Improve Abstractive Multi-Document Summarization

refectoring - improve the exiting code

Improve code inspection with annotations

自动代码生成：文献阅读和学习《A Deep Learning Model for Source Code Generation 》

自动代码生成-文献综述阅读《Code Generation Using Machine Learning:A Systematic Review》

[code] Transformer For Summarization Source Code Reading

[code] Transformer For Summarization Source Code Reading [3]

Improve your code with lint checks

CGLIB(Code Generation Library)

论文阅读：Dual Supervised Learning

An Integrated Approach for Keyphrase Generation via Exploring the Power of Retrieval and Extraction

基于深度学习的图像检索 image retrieval based on deep learning （code ，代码）

CGLIB(Code Generation Library)详解

【论文阅读 - AAAI 2020】TreeGen: A Tree-Based Transformer Architecture for Code Generation

论文阅读：Dual Learning for Machine Translation

论文阅读笔记（三）【AAAI2017】：Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image

Clean Code Learning

OpenCV Startup Learning Code

Q-Learning code

pytorch source code learning

MaxCompute 中的Code Generation技术简介

JEECG（J2EE Code Generation）

【论文阅读】[CVPR 2022] Contrastive Boundary Learning for Point Cloud Segmentation. [code] [Segmentation]

论文阅读：Deep Image Retrieval: Learning global representations for image search

Detection of Malicious Code Variants Based on Deep Learning--论文

[论文分享] When deep learning met code search

迁移学习论文阅读：Transfer Learning via Learning to Transfer

Query-Oriented Multi-Document Summarization via Unsupervised Deep Learning

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)