垂直大模型渐入佳境,解码国内首个智能校对领域大模型“蜜度文修”

一枝独秀不是春,百花齐放春满园。

ChatGPT的兴起,引发了全球性的大模型竞赛热潮。走过开始的混沌期,大模型竞技场当前越来越呈现出两条清晰的路线:一是以云服务厂商为代表的巨头们逐鹿的基础通用大模型赛道;二是在基础通用大模型之上,深耕千行百业多年的行业“老司机”们抢滩构建的垂直行业大模型。

在WAIC 2023 世界人工智能大会会场,我们发现了一家名为“蜜度”的厂商,既有与各大头部厂商媲美的特装展位,又主办了“语言智能与内容生成高峰论坛”。这是何等的底气,让蜜度如此高调?

蜜度之“秘”

从蜜度的网站,可以发现其创立于2009年,是一家以人工智能技术为核心的语言智能科技企业,专注于多模态多语言智能科技,为政府和企业各类办公场景提供智能应用软件,致力于为数字政府、数字营销、数字媒体、数字城市的建设提供全方位的智能应用解决方案。

蜜度利用先进的跨模态检索(CMR)、多语言校对(MLC)、计算机视觉(CV)、自然语言处理(NLP)、内容生成(AIGC)、知识图谱(KG)等人工智能技术为企业和政府机构提供智能校对、智能生成、智能检索等应用软件产品,赋能企业和政府的办公场景数字化、智能化转型升级。

截至目前,蜜度已服务于20000+政府客户,10000+知名企业、大型企业。

蜜度文修国内首个智能校对领域大模型

智能校对,一个听起来相对小众的领域,作为蜜度的主打领域之一,蜜度正在把它做到极致。在本届WAIC上,蜜度发布了国内首个智能校对领域大模型“蜜度文修”。

“蜜度文修”之名取自“欧阳修曾任馆阁校勘,校对亦有修文之意”。蜜度文修以大语言模型(LLM)为技术底座,通过运用高质量数据学习多种特色子任务,大幅提升中文校对和润色能力的智能化程度。截至目前,在公开测试语料评测结果中,蜜度文修实现各类校对项目F1值(模型精确率与召回率的调和平均数,用以阐述模型完成指定任务的质量)的全面SOTA(state-of-the-art,指模型在指定任务中的表现为当前业界最优)。蜜度文修不仅辅助专业用户提高校对质量、提升校对速度、降低差错率,也为新闻出版、媒体稿件、政务公文等专业领域带来革命性的工作模式迭代与效率提升,为新时代语言文字工作高质量发展注智赋能。

“蜜度文修在中文拼写勘误、语法纠正任务上的表现显著优于通用大模型ChatGPT,大约有20%~30%的效果提升。”蜜度CTO刘益东这样点评道。

创新非一日之功

据了解,蜜度文修的推出,历经三年,方磨一剑。

早在2020年,蜜度就推出了智能文本检测服务,并以深度学习模型为技术开发策略,尝试智能化地解决错别字等基础校对问题。

2021年,蜜度成立多语言校对检测实验室,逐步完善校对能力体系建设,围绕“文字标点差错”、“知识性差错”、“内容导向风险识别”三个主要能力开展建设。

2022年的WAIC上,蜜度发布了支持本地化部署的蜜度校对通AI-Box,这也是首个通过华为昇腾AI生态认证的自然语言处理智能文本校对应用解决方案。

进入2023年,蜜度在智能校对领域的动作明显加快。年初,蜜度智能校对系统入选国家新闻出版署2022年出版业科技与示范创新项目“科技创新成果”;4月,蜜度智能校对多语言版正式上线,除了汉字、英文之外,还覆盖了蒙古文、藏文、维吾尔文、朝鲜文、壮文、哈萨克文、傣文、乌孜别克文、柯尔克孜文、俄罗斯文、彝文、傈僳文共计12种少数民族语言文字;6月,蜜度正式推出中文润色服务,重点解决用词不当、句式杂糅等措辞与表述问题。

直到本届WAIC大会现场,蜜度推出全新的蜜度文修,让大模型时代的全新工作范式走入校对场景,除了刷新多类校对任务的最佳效果之外,还完善了过去较为薄弱的易混词细微语义辨析难题,同时在尊重原意表达的基础上,更好地修正句式杂糅、逻辑错乱等问题,使句子表达更流畅,实现对句子的润色功能。蜜度文修的发布,可以视为蜜度在大模型时代,采用与时俱进的前沿科技积极赋能垂直办公场景的一次实践。

据蜜度智能校对事业部总经理张晓娟介绍,蜜度文修的创新集中体现在两个方面。

首先,引入多任务学习策略提升校对能力,设计了与校对任务密切相关的多种子任务,让模型进行自监督学习,通过做关联任务提升校对的智能化程度。

其次,大幅度提升模型学习的数据质量,引入自动化手段对大规模数据进行质量评估,解决噪音数据对校对任务的影响更为敏感的问题,同时,蜜度文修对通用规范汉字实现了全覆盖,拥有更全的专业词汇表,让更多汉字能够输入模型进行学习。

未来创新不止

在实际服务新闻出版、媒体、政府等机构客户中,蜜度发现用户对一致性检测、专业知识校对、版面校对等都有强烈需求,但当前仍有技术制约无法高质量解决。针对这些需求,蜜度算法团队已在紧锣密鼓研发,希望通过大语言模型的能力更好地满足用户不同层次的校对需求,为校对能力的再提升贡献力量。

同时,针对政务机构需要在内网环境使用的校对需求,蜜度文修计划一方面启动模型压缩任务,在效果有限损失的约束下,降低对硬件资源的开销,二是将提供插件式本地学习服务,在用户可信赖的计算环境下,实现对非公开数据的增量学习,提升校对效果。

随着大模型越来越进入垂直行业、细分场景,对整个社会生产力提升的作用愈加明显。以蜜度文修为代表的垂直领域大模型,未来可期。

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/131665348