预训练语言模型中模型对比与实施结果分析(图文解释)

一、模型对比

开源代码仓库中存在不同用户上传的各种不同版本,为了避免模型代码版本不同导致评测结果的差异而对模型对比分析结论产生异议,表3.8对本章使用的开源代码进行了说明,它们大多数来自开源社区GitHub的源代码仓库,分别下载自脸书研究(Facebookresearch)哈尔滨工业大学社会计算与信息检索研究中心(Harbin Institute ofTechrologyresearch center for Social Computing and Information Retrieval,HIT SCIR)bigboNed3、谷歌人工智能(GoogleA1,2018年5月18日由 Google Research利 Google.i并中文语理解测评基准(CLUE)组织(即中文通用语理解测评基准(Chinese general Language Understanding Evaluntion benchmark,Chinese GLUE benchmark组织滨工大学社会计算与信息检索研究中心2018级博士研究生花一鹏、百度飞桨、百度、华为诺亚方舟实验室(Huawei Noah’s arklab)创新工场人 T智能工程院(Sinovation ventures Alinstitute)深圳追一科技有限公司、北京熵简科技有限公司、陈元伟、PatientEz等方itHub账号上传并公开发布的源代码;间接使用了卡内基·梅隆大学计算机科学学院语言技术研究所2020届语言和信息技术博士戴子行(北京循环智能科技有限公司联合创始人杨植麟团队)北京澜舟科技有限公司官方GitHub账号上传并公开发布的源代码。只有中文Longformer模型直接下载自抱抱脸(hugging face)官方网站。
所有代码的使用均遵守官方GitHub账号指定采用的开源软件授权许可协议,本章对比模型的开发者大多数都选择非盈利开源组织阿帕奇软件基金会制定的授权许可协议2.0版本(Apache license2.0),可以免费使用、修改、按照自己的方式进行集成并应该清楚地在产品、网站和市场介绍材料中明确指出使用了开发者的源代码。按开源软件授权协议规定,本书在此处进行声明。
有些情绪分类特定任务模型虽然已开源,但是未使用中文进行预训练,因此未能人到本章模型对比,例如,清华大学人工智能学院交互式人工智能(Conversational CoAI)课题组发布的SentiLARE模型

情绪分类任务

批处理大小

WoBERT——基于词颗粒度的中文BERT

 

RoFormer——旋转变换器

 

 PERT:乱序语言模型

模型裁剪工具TextPruner

二、实施结果分析

RoBERTa全词掩码扩展巨大中文模型

由以上结果我们可以总结出以下结论

中文金融情绪分类语料库很稀少;

本书将金融情绪语料标注为“利多”、“利空”、“其他”三类别,且特意保留了2条“未标注”语料;

旋转位置嵌入(RoPE)编码技术利用向量之间的旋转角度来表示特征之间的相对关系,已被很多大模型广泛使用,例如EleutherAI GPT-Neo、GPT-NeoX、 FLASH、PaLM等 ;

WoBERT和WoBERT+是以中文词为粒度进行切分,同时全词掩码更适合中文预训练表征

猜你喜欢

转载自blog.csdn.net/jiebaoshayebuhui/article/details/130419178