大模型在企业知识库场景的落地思考

一、引言

在这个信息爆炸的时代，企业的知识库已不再是简单的数据堆砌，而是需要智能化、高效率的知识管理和利用。大模型作为AI领域的一个重要突破，正逐步成为企业知识库管理的强大助力。通过前面一段时间对于大模型在企业落地的深入调研和实践，我对如何将大模型有效融入企业知识管理体系有了一些思考。本文将结合具体案例，分析大模型在企业知识库场景中的落地策略，以及在实践中可能遇到的挑战和解决方案。希望能够为同行提供参考，共同推动行业向前发展。

二、大模型在传统企业落地的挑战

虽然目前最新发布的 GPT 模型能力足够强，但对于国内用户而言，从数据安全性和商业化隐私的角度来看，实际上在很多领域都不能直接接入国外大模型的能力在企业中去落地。大部分企业的需求都期望能建立本地私有化的大模型

，但碍于大模型的训练成本，如果完全重新训练一个行业或者领域大模型，算力和投入成本就将大部分企业拦在了门外，且不说英伟达对国内出口的限制，对企业而言，还需要衡量实际投入后的回报价值。

2.1、算力：缺乏对算力的高效管理

在算力方面，企业面临的首要问题是如何实现成本与效益的平衡。高性能计算资源往往意味着高昂的成本，而且大模型训练过程中的算力需求是动态变化的，这就要求企业能够灵活调配算力资源，以适应不同阶段的需求。此外，算力资源的选型和采购周期也是一个考验，需要企业有足够的技术洞察力和市场反应速度。解决这一挑战的关键是建立一个高效管理和自适应扩展的算力资源体系，通过技术创新降低算力成本，同时确保算力资源能够快速响应大模型训练和推理的需求。

2.2、调度：缺乏适应大模型的算力支撑

调度问题主要体现在两个方面：一是如何构建支持大模型训练和推理的分布式架构，二是如何优化资源调度策略，确保算力供给的高效性。分布式架构能够支撑大规模并行计算，是大模型训练不可或缺的基础设施。而资源调度策略则直接影响到计算资源利用率和任务完成速度。企业需要开发或引入先进的调度系统，实现资源的弹性分配和智能优化，以支持复杂多变的大模型运算需求。

2.3、数据：缺乏把数据转换为知识的手段

数据转换为知识是大模型训练中的关键步骤。企业需要将累积的海量数据高效转化为可供模型学习的知识，并处理好数据隐私和安全问题。这不仅仅是一个技术问题，更是一个流程和管理问题。企业需要建立一套完善的数据处理流程，从数据采集、清洗、标注到加密存储，每一个环节都要确保数据质量和安全性。同时，也要考虑到数据标准化和格式化问题，以便于大模型更好地学习和理解。

2.4、应用：缺乏大模型相关知识积累

最后一公里问题实际上是一个知识转移问题，即如何将大模型训练出来的能力有效应用到具体业务场景中去。这需要企业有足够的AI算法人才来进行模型微调和优化，确保模型输出与业务需求紧密对接。同时，也需要建立一套完善的应用评估和迭代机制，不断根据业务反馈优化模型表现。在这个过程中，企业可能需要与外部专家合作，引入最佳实践和行业经验，以加速大模型在企业场景中的落地应用。

三、基于预训练模型的两种企业落地路径

3.1、RAG（检索增强生成），向大模型补充专有知识

RAG(检索增强生成)是一种结合信息检索和文本生成的技术，旨在提高自然语言处理任务的性能。它可以从一个大型知识库中检索与输入相关的信息，并将这些信息作为上下文和问题一起输入给模型进行处理。通过这种方式，RAG可以帮助模型生成更加准确、相关和丰富的回答。简单说，RAG就是先检索后生成，让模型“有据可依”。

RAG 检索增强生成管道由多个组件组成，包括向量数据库、文档存储、嵌入模型和主语言模型。其核心功能始于嵌入模型，它将文档转换为存储在向量数据库中的数字表示。当用户发送提示时，嵌入模型对其进行编码并将其发送到向量数据库。向量数据库将提示的嵌入与数据库的文档嵌入进行比较，以识别相似度最高的嵌入。一旦确定了最相关的文档，它们的内容就会添加到原始提示中作为上下文，并发送到主LLM。LLM使用此上下文信息来生成其响应。此过程中的关键步骤是检索与提示真正相关的文档。它依赖于嵌入内语义表示的精度。如果嵌入无法对齐提示和文档，向量数据库可能会返回不适当的文档，从而导致响应不佳。

3.2、大模型微调，让大模型具备专有知识

在企业知识库的应用场景中，大模型微调（Fine-tuning）是一种使模型适应特定领域知识的有效手段。通过这一过程，我们可以将大模型从一个通用的“知识全书”，转变为一个对企业自身业务深度理解的“行业专家”。

首先，微调需要一个预训练的大模型作为基础。这个模型已经在广泛的数据上进行了训练，掌握了丰富的语言规律和知识信息。然而，企业的专有知识库往往包含了大量行业特定的术语、产品信息、内部流程等内容，这些是预训练模型在训练时未必涉及到的。

因此，微调过程中，我们会将企业的专有数据集输入到这个预训练模型中。通过在特定数据集上重新训练模型的部分或全部参数，使其能够更好地理解和生成与企业相关的内容。微调可以在不同层面上进行，从简单的参数调整到复杂的结构优化，甚至是增加新的模型层来适应特定功能的需求。

在实践中，微调不仅仅是技术操作，它还涉及到对企业知识体系深度理解的过程。我们需要精心设计微调策略，选择合适的数据集、定义清晰的目标指标，并且持续评估模型表现，确保其输出既符合企业知识体系也能满足实际业务需求。

最后，微调后的大模型能够在多种场景下发挥作用。无论是自动回答客户咨询、辅助员工快速检索内部资料、还是参与复杂的决策支持，它都能提供更加精准、个性化的信息服务。通过这种方式，企业能够充分利用自身积累的知识资产，提升整体运营效率和竞争力。

总之，大模型微调是连接预训练模型与企业特定知识之间的桥梁。在这一过程中，我们不仅仅是在技术上“教会”模型新知识，更是在战略层面上重新定义和强化了企业知识库的价值和应用范围。

四、回顾知识库的发展历程

最早时期的知识库基本是以纸质文档为主，多应用在档案室的场景，对于知识的检索和更新是非常低效的，只能通过人工的方式来完成，且随着时间的推移，档案文件的数量越来越庞大，纸质文档常年不保养也会慢慢损坏，基本上无法产生有效的价值。

随着进入计算机信息化技术发展时代，对于文档的管理逐步转向电子化，通过一些设备扫描拍照存储到计算机系统中，借助互联网信息，这个阶段可以对文档进行有效的管理，方便管理员统计知识库的使用和存储情况，但这个时期的知识库文档都是孤立存储的，形态还是以文本格式的文档为主，有关联的文档知识没有建立关系，缺乏相关知识的联动检索。

随着信息表达的方式从原来的文本到现在的图片、语音、视频等多种形态，对于知识库的管理要求又出现了一些新的挑战，我们一般会借助于人工智能领域的知识图谱和NLP技术，通过模型训练，建立标准问答库的方式实现一些半智能化的前端应用，如智能客户、智能搜索等。但这个时期由于NLP技术在语义理解和中文推理等方面还没有特别成熟，大部分实现还是基于基础的分词和规则、及关键词匹配的方式实现知识库的检索，且知识的转化和构建过程复杂，投入成本过高，冷启动时间太大，导致最终的体验效果比较差，显得不够“智能”。

自从2022年 OpenAI 发布的GPT大模型火爆之后，一切将发生非常大的变化，所有的应用交互和生产关系都随着大模型的强大能力在不断变革和演进，从文本大模型到多模态大模型，进一步推动了知识库在企业落地的可能性。大模型有着明显的语义理解和泛化增强的优势，也因为其生产式的特点，生产的内容是概率性，不确定的，所以也导致模型最终在应用的时候，准确率和幻觉是需要重点去解决的问题。

五、大模型知识库构建过程

在传统企业知识库构建的整体流程中， 企业需要人工整理常见问题解答（FAQ）并训练QA机器人，随后持续地进行系统的维护和优化。但由于它主要依赖预先设置的答案进行训练，导致机器人在实际应用中频繁出现语义解读错误，无法给出精确答案。此外，这类机器人的功能模型泛化能力较差，例如无法进行文本摘要、内容扩展或文本润色。用户需要在检索文档后，手动浏览获取相应信息。

使用大模型知识助手时， 用户可以在查询时采用自然语言进行多轮自然交互，企业无需提前配置任务型的问答流程。大模型能够依据知识库的内容，做出更准确的回答。基于策略不同，大模型不仅支持独立推理并作出回答，同时支持完全基于常见问题解答（FAQ）给出所需答复。同时，加入大模型后，知识库类应用还可支持具有扩展性的问答，用户可以使用知识助手解决相对复杂的问题。例如，在知识库中金融产品相关介绍有一千篇，按特定维度对产品进行分类，假设用户关注产品收益率，可以基于类似循环的递归任务，获取不同产品类型的收益率情况后，再汇总成以表格的形式、或JSON格式、或其他结构化的数据形式进行输出。之后，处理好的数据会在输入到下游的投研分析师，对数据进行进一步的分析工作。这样就能极大提升在某些场景需要大量获取文档信息的效率。

六、大模型知识库产品的落地流程

开源大模型应用到企业知识库中，企业可以从六个方面对开源大模型进行测评：基础语言特性，逻辑与推理能力，语义理解，生成与创作，金融领域能力，安全与合规能力。

大模型知识库产品的具体落地流程如下：首先需要对数据样本进行脱敏处理，并将其输入到开源大型模型中进行大模型微调。其次，对训练后的领域大模型，进行私有化部署。在大模型应用阶段，可以采用两种方式进行输出内容控制。首先，需要使用提示词进行约束，比如可以选择让大模型完全使用知识库内容进行答复，或者允许其进行扩展回答。其次，为确保输出的准确性和合规性，所有模型产生的答案都会连接到质检系统进行进一步的审查，确保输出内容没有合规风险。

值得注意的是，在大模型产品知识库应用项目落地时，企业可以将原文本机器人与大模型知识助手进行融合。首先，在数据来源方面，可以把企业内部各种文档进行上传、也支持在线存储对象的上传、和企业内部数据库的链接，这些内容都可以作为知识来源，存储到大模型的语句库中。同时在一些特定的问题上，企业也可以配置FAQ。比如对较为敏感的问题如何回答，高频的场景如何回答。

在高频问题场景下，企业可以借助大模型自动抽取和生成相应的 FAQ，通过人工审核的方式进行再次验证保证准确，最后灌输到知识库中。类似传统文本客服问答过程中的提问，也可以实现高频问题的挖掘和聚类，补充到FAQ的知识库中。

由此，相对于传统知识库应用，与大模型结合后，企业知识库应用不需要过多的人工配置即可冷启动上线，且能达到较好的使用效果。

在FAQ 的语义识别过程中，企业可以使用组合式的方案进行使用配置，包括Bert，向量化检索，ES等。比如在语料较少的情况下，使用其中一种方式检索，语料比较多的情况下，使用另一种方式检索。

在原有的多轮型任务型对话环节中，企业一般会通过任务型对话的方式进行处理，在大模型的加持下，企业可以构建上下文的记忆能力，产生连续对话的效果。由此，连续对话不需要预先通过任务型的技术方案进行配置，极大减少使用成本。

七、总结

今天我们深入探讨了企业在知识库场景下运用大型模型的实践策略。我们首先分析了大型模型在企业实际应用中所面临的挑战，包括算力、调度和数据等方面的问题。随后，我们提出了一系列解决方案，包括构建高效管理和自适应扩展的算力资源体系，开发或引进先进的调度系统，以及建立完善的数据处理流程。最后，我们强调了企业在实施大型模型实践策略时，必须关注数据安全、隐私和合规问题，以确保实践方案的可行性和可持续性。

在实际落地过程中，针对不同行业的特点，包括从开源大模型的选型、向量数据库及向量模型的选型、模型部署算力要求、模型能力综合评估、有效数据集的准备、技术框架选型、以及在数据集清洗、解析、切割、转换为知识的过程中，还存在很多问题可能都会直接影响大模型最终响应结果的准确性，包括模型可能会产生幻觉等有哪些合适的解决方案，将逐步在后面的研究落地过程中和大家一起分享交流。