垂直大模型渐入佳境，解码国内首个智能校对领域大模型“蜜度文修”

一枝独秀不是春，百花齐放春满园。

ChatGPT的兴起，引发了全球性的大模型竞赛热潮。走过开始的混沌期，大模型竞技场当前越来越呈现出两条清晰的路线：一是以云服务厂商为代表的巨头们逐鹿的基础通用大模型赛道；二是在基础通用大模型之上，深耕千行百业多年的行业“老司机”们抢滩构建的垂直行业大模型。

在WAIC 2023 世界人工智能大会会场，我们发现了一家名为“蜜度”的厂商，既有与各大头部厂商媲美的特装展位，又主办了“语言智能与内容生成高峰论坛”。这是何等的底气，让蜜度如此高调？

蜜度之“秘”

从蜜度的网站，可以发现其创立于2009年，是一家以人工智能技术为核心的语言智能科技企业，专注于多模态多语言智能科技，为政府和企业各类办公场景提供智能应用软件，致力于为数字政府、数字营销、数字媒体、数字城市的建设提供全方位的智能应用解决方案。

蜜度利用先进的跨模态检索（CMR）、多语言校对（MLC）、计算机视觉（CV）、自然语言处理（NLP）、内容生成（AIGC）、知识图谱（KG）等人工智能技术为企业和政府机构提供智能校对、智能生成、智能检索等应用软件产品，赋能企业和政府的办公场景数字化、智能化转型升级。

截至目前，蜜度已服务于20000+政府客户，10000+知名企业、大型企业。

蜜度文修：国内首个智能校对领域大模型

智能校对，一个听起来相对小众的领域，作为蜜度的主打领域之一，蜜度正在把它做到极致。在本届WAIC上，蜜度发布了国内首个智能校对领域大模型“蜜度文修”。

“蜜度文修”之名取自“欧阳修曾任馆阁校勘，校对亦有修文之意”。蜜度文修以大语言模型（LLM）为技术底座，通过运用高质量数据学习多种特色子任务，大幅提升中文校对和润色能力的智能化程度。截至目前，在公开测试语料评测结果中，蜜度文修实现各类校对项目F1值（模型精确率与召回率的调和平均数，用以阐述模型完成指定任务的质量）的全面SOTA（state-of-the-art，指模型在指定任务中的表现为当前业界最优）。蜜度文修不仅辅助专业用户提高校对质量、提升校对速度、降低差错率，也为新闻出版、媒体稿件、政务公文等专业领域带来革命性的工作模式迭代与效率提升，为新时代语言文字工作高质量发展注智赋能。

“蜜度文修在中文拼写勘误、语法纠正任务上的表现显著优于通用大模型ChatGPT，大约有20%～30%的效果提升。”蜜度CTO刘益东这样点评道。

创新，非一日之功

据了解，蜜度文修的推出，历经三年，方磨一剑。

早在2020年，蜜度就推出了智能文本检测服务，并以深度学习模型为技术开发策略，尝试智能化地解决错别字等基础校对问题。

2021年，蜜度成立多语言校对检测实验室，逐步完善校对能力体系建设，围绕“文字标点差错”、“知识性差错”、“内容导向风险识别”三个主要能力开展建设。

2022年的WAIC上，蜜度发布了支持本地化部署的蜜度校对通AI-Box，这也是首个通过华为昇腾AI生态认证的自然语言处理智能文本校对应用解决方案。

进入2023年，蜜度在智能校对领域的动作明显加快。年初，蜜度智能校对系统入选国家新闻出版署2022年出版业科技与示范创新项目“科技创新成果”；4月，蜜度智能校对多语言版正式上线，除了汉字、英文之外，还覆盖了蒙古文、藏文、维吾尔文、朝鲜文、壮文、哈萨克文、傣文、乌孜别克文、柯尔克孜文、俄罗斯文、彝文、傈僳文共计12种少数民族语言文字；6月，蜜度正式推出中文润色服务，重点解决用词不当、句式杂糅等措辞与表述问题。

直到本届WAIC大会现场，蜜度推出全新的蜜度文修，让大模型时代的全新工作范式走入校对场景，除了刷新多类校对任务的最佳效果之外，还完善了过去较为薄弱的易混词细微语义辨析难题，同时在尊重原意表达的基础上，更好地修正句式杂糅、逻辑错乱等问题，使句子表达更流畅，实现对句子的润色功能。蜜度文修的发布，可以视为蜜度在大模型时代，采用与时俱进的前沿科技积极赋能垂直办公场景的一次实践。

据蜜度智能校对事业部总经理张晓娟介绍，蜜度文修的创新集中体现在两个方面。

首先，引入多任务学习策略提升校对能力，设计了与校对任务密切相关的多种子任务，让模型进行自监督学习，通过做关联任务提升校对的智能化程度。

其次，大幅度提升模型学习的数据质量，引入自动化手段对大规模数据进行质量评估，解决噪音数据对校对任务的影响更为敏感的问题，同时，蜜度文修对通用规范汉字实现了全覆盖，拥有更全的专业词汇表，让更多汉字能够输入模型进行学习。

未来，创新不止

在实际服务新闻出版、媒体、政府等机构客户中，蜜度发现用户对一致性检测、专业知识校对、版面校对等都有强烈需求，但当前仍有技术制约无法高质量解决。针对这些需求，蜜度算法团队已在紧锣密鼓研发，希望通过大语言模型的能力更好地满足用户不同层次的校对需求，为校对能力的再提升贡献力量。

同时，针对政务机构需要在内网环境使用的校对需求，蜜度文修计划一方面启动模型压缩任务，在效果有限损失的约束下，降低对硬件资源的开销，二是将提供插件式本地学习服务，在用户可信赖的计算环境下，实现对非公开数据的增量学习，提升校对效果。

随着大模型越来越进入垂直行业、细分场景，对整个社会生产力提升的作用愈加明显。以蜜度文修为代表的垂直领域大模型，未来可期。