2021全球开放数据应用创新大赛-法律咨询问答亚军方案

赛题分析

任务：给定用户问题，根据多个候选答案生成回复，属于文本生成任务。

问题	信用逾期了，银行打电话骚扰我父母，改如何处理
候选答案	1. 按照约定还款 2.报警
标准回复	你好，这种情况只能按照约定还款，如果构成骚扰可以去报警处理。

评价指标：使用jieba工具分词；采用ROUGE指标（N是n-gram中的n，取值1，2）和ROUGE-L作为评价指标。
$f - score = 0.2 * f - score (RO U GE - 1) + 0.3 * f - score (RO U GE - 2) + 0.5 * f - score (RO U GE - L)$
赛题难点

评价指标采用jieba分词，以字为粒度的模型效果不佳。
数据集和通用领域存在一定差距。
存在部分对抗样本，会对模型造成一定干扰。

对抗样本：信用逾期了，银行打电话骚扰我父母，改如何处理

方案设计

模型选择

权重：T5-PEGASUS

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rhHZUHmV-1679832129072)(F:\weixin\imgs\image-20230325102206382.png)]$

优势：

词典增加结巴分词，更贴合本次比赛任务；
mt5基础上预训练，在中文生成任务上性能更佳。

领域预训练

数据来源：罪名法务智能项目及和鲸社区法律问答数据集.

数据样例：

问题	没有签订合同，没买保险，是在工地受伤的，别人说是他违规操作这样去走司法程序是会理亏吗	农村私人雇佣导致工伤，但是没有签订合同，都是同村的人雇佣做工，这个可以维权吗
候选答案	不理亏您好，建议协商不成可以到法院起诉需要把案情仔细说一遍	可以双方协商赔偿，雇佣方需要承担一定责任。可以的，属于提供劳务者受害责任纠纷可以要求赔偿但不是通过工伤的名义。
标准回复	无	您好，可以维权，建议直接提起诉讼，由雇佣方承担一定责任，但不算工伤。

训练样本构造：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Io6fg1OQ-1679832129073)(F:\weixin\imgs\image-20230325102603219.png)]$

方案存在问题：

赛题训练集中标准答案部分字符来自于候选答案，构造的数据中会存在标准答案和候选答案无公共序列问题；
构造的数据会出现无候选答案情况；
给定标准答案非人工标准最佳答案，存在一定噪声

采用预训练-微调方式可以在一定程度上缓解预训练数据噪声的影响。

对抗训练

对模型的 embedding层添加扰动，让模型在增加扰动的情况继续向减小损失的方向进行优化，可以有效地提升模型的鲁棒性和泛化能力，尤其是在面对对抗样本的时候能够有稳定的表现。

FreeLB > FGM > PGD

结论：预训练和微调阶段都使用FreeLB效果最好

稀疏SoftMax

使用稀疏化SoftMax替换SoftMax，避免SoftMax过度学习而导致过拟合。稀疏化即计算概率的时候，只保留前k个，后面的直接置零。

结论：仅在微调阶段使用，预训练阶段使用效果下降。

伪标签

使用模型集成后结果创建伪标签数据；
和原有训练集混合进行五折单模训练；
五折模型预测结果进行集成。

在这里插入图片描述

赛题总结

融合方式-投票

首先从多个预测答案中抽取出第一条作为预测答案，其余作为标准答案；
然后计算出预测答案和所有标准答案的分值，累加起来作为该预测答案的得分；
最后选取得分最高的作为最终答案。

这种模型融合方式适用于阅读理解、摘要等复杂任务

性能对比

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F39ItjWK-1679832129074)(F:\weixin\imgs\image-20230325103044477.png)]$

展望

Copy机制
构造更优预训练数据
搭建异构模型
今年是2023年，可以使用其他新出的生成模型，例如：bart、mengzi、fengshen等生成模型进一步实验效果。

结论

最近llms大火，本文回忆了sodic2021 亚军获奖方案，该方案采用T5的文本生成方法，取得了不错的效果，随着各种生成模型的爆发，使用其他的生成模型或许也能取得更好的效果。