2021全球开放数据应用创新大赛-法律咨询问答亚军方案

赛题分析

任务:给定用户问题,根据多个候选答案生成回复,属于文本生成任务。

问题 信用逾期了,银行打电话骚扰我父母,改如何处理
候选答案 1. 按照约定还款 2.报警
标准回复 你好,这种情况只能按照约定还款,如果构成骚扰可以去报警处理。

评价指标:使用jieba工具分词;采用ROUGE指标(N是n-gram中的n,取 值1,2)和ROUGE-L作为评价指标。
f − s c o r e = 0.2 ∗ f − s c o r e ( R O U G E − 1 ) + 0.3 ∗ f − s c o r e ( R O U G E − 2 ) + 0.5 ∗ f − s c o r e ( R O U G E − L ) f-score=0.2*f-score(ROUGE-1)+0.3*f-score(ROUGE-2)+0.5*f-score(ROUGE-L) fscore=0.2fscore(ROUGE1)+0.3fscore(ROUGE2)+0.5fscore(ROUGEL)
赛题难点

  • 评价指标采用jieba分词,以字为粒度的模型效果不佳。

  • 数据集和通用领域存在一定差距。

  • 存在部分对抗样本,会对模型造成一定干扰。

    对抗样本:信用逾期了,银行打电话骚扰我父母,如何处理

方案设计

模型选择

权重:T5-PEGASUS

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rhHZUHmV-1679832129072)(F:\weixin\imgs\image-20230325102206382.png)]

优势

  1. 词典增加结巴分词,更贴合本次比赛任务;
  2. mt5基础上预训练,在中文生成任务上性能更佳。

领域预训练

数据来源:罪名法务智能项目及和鲸社区法律问答数据集.

数据样例:

问题 没有签订合同,没买保险,是在工地受伤的, 别人说是他违规操作这样去走司法程序是会 理亏吗 农村私人雇佣导致工伤,但是没有签订合同, 都是同村的人雇佣做工,这个可以维权吗
候选答案 不理亏
您好,建议协商不成可以到法院起诉 需要把案情仔细说一遍
可以双方协商赔偿,雇佣方需要承担一定责任。
可以的,属于提供劳务者受害责任纠纷
可以要求赔偿但不是通过工伤的名义。
标准回复 您好,可以维权,建议直接提起诉讼,由雇佣 方承担一定责任,但不算工伤。

训练样本构造:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Io6fg1OQ-1679832129073)(F:\weixin\imgs\image-20230325102603219.png)]

方案存在问题:

  1. 赛题训练集中标准答案部分字符来自于候选答案,构造的数 据中会存在标准答案和候选答案无公共序列问题;
  2. 构造的数据会出现无候选答案情况;
  3. 给定标准答案非人工标准最佳答案,存在一定噪声

采用预训练-微调方式可以在一定程度上缓解预训练数据噪声的影响。

对抗训练

对模型的 embedding层添加扰动,让模型在增加扰动的情况继续向减小损 失的方向进行优化,可以有效地提升模型的鲁棒性和泛化能力,尤其是在 面对对抗样本的时候能够有稳定的表现。

FreeLB > FGM > PGD

结论:预训练和微调阶段都使用FreeLB效果最好

稀疏SoftMax

使用稀疏化SoftMax替换SoftMax,避免SoftMax过度学习而导致过拟合。 稀疏化即计算概率的时候,只保留前k个,后面的直接置零。

结论:仅在微调阶段使用,预训练阶段使用效果下降。

伪标签

  1. 使用模型集成后结果创建伪标签数据;
  2. 和原有训练集混合进行五折单模训练;
  3. 五折模型预测结果进行集成。

在这里插入图片描述

赛题总结

融合方式-投票

  1. 首先从多个预测答案中抽取出第一条作为预测答案,其余作为标准答案;
  2. 然后计算出预测答案和所有标准答案的分值,累加起来作为该预测答案的得分;
  3. 最后选取得分最高的作为最终答案。

这种模型融合方式适用于阅读理解、摘要等复杂任务

性能对比

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F39ItjWK-1679832129074)(F:\weixin\imgs\image-20230325103044477.png)]

展望

  • Copy机制
  • 构造更优预训练数据
  • 搭建异构模型
  • 今年是2023年,可以使用其他新出的生成模型,例如:bart、mengzi、fengshen等生成模型进一步实验效果。

结论

最近llms大火,本文回忆了sodic2021 亚军获奖方案,该方案采用T5的文本生成方法,取得了不错的效果,随着各种生成模型的爆发,使用其他的生成模型或许也能取得更好的效果。

猜你喜欢

转载自blog.csdn.net/yjh_SE007/article/details/129783666