基于Langchain-Chatchat的知识库问答系统

文章目录

文章背景
构建知识库
资源及相关配置
相关问题
优化方案
- PDF文档解析优化方案
参考

文章背景

Langchain-Chatchat项目是一种利于langchain思想实现的基于本地知识库的问答应用，是一个可以实现完全本地化推理的知识库增强方案，具有重点解决数据安全保护，私域化部署的企业痛点的能力。
本文主要对构建一个基于Langchain-Chatchat的知识库问答系统，可能存在的问题以及相关改进方案的说明。
项目地址：https://github.com/chatchat-space/Langchain-Chatchat
项目更多详情：https://github.com/chatchat-space/Langchain-Chatchat/wiki/

构建知识库

将七月近两年整理的大厂面试题PDF文件作为源文件来进行知识库的构建。
在这里插入图片描述
默认使用RapidOCRPDFLoader作为文档加载器。RapidOCR是目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。由于PaddleOCR工程化不是太好，RapidOCR为了方便大家在各种端上进行OCR推理，将PaddleOCR中的模型转换为ONNX格式，使用Python/C++/Java/Swift/C# 将它移植到各个平台。
更多详情参考：https://rapidai.github.io/RapidOCRDocs/docs/overview/

资源及相关配置

本次主要对 V0.2.6 版本进行测试，资源及相关默认配置如下：

显卡：Tesla P100，16G（显存）
分词器：ChineseRecursiveTextSplitter
chunk_size：250
embedding模型：m3e-base
LLM模型：chatglm2-6b
向量库：faiss

相关问题

检索问题

检索结果不准确

问题描述
会出现检索出的部分结果与问题相关性不大的情况，甚至还会出现对某些问题检索不到的情况。

比如问一个面试题：用通俗的语言介绍下强化学习
检索得到的内容如下：

出处 [1] 2022Q2大厂面试题共92题（含答案及解析）.pdf

CART 树算法的核心是在生成过程中用基尼指数来选择特征。 4、用通俗的语言介绍下强化学习（Reinforcement Learning）监督学习的特点是有一个“老师”来“监督”我们，告诉我们正确的结果是什么。在我们在小的时候，会有老师来教我们，本质上监督学习是一种知识的传递，但不能发现新的知识。对于人类整体而言，真正（甚至唯一）的知识来源是实践——也就是强化学习。比如神农尝百草，最早人类并不知道哪些草能治病，但是通过尝试，就能学到新的知识。学习与决策者被称为智能体，与智能体交互的部分则称为环境。智能体与环境不断进行交互，具体而言，这一交互的过程可以看做是多个时刻，每一时刻，智能体根据环境的状态，依据一定的策略选择一个动作（这

出处 [2] 2021Q3大厂面试题共107题（含答案及解析）.pdf

20.2 集成学习的方式，随机森林讲一下，boost 讲一下， XGBOOST 是怎么回事讲一下。集成学习的方式主要有 bagging，boosting，stacking 等，随机森林主要是采用了 bagging 的思想，通过自助法（bootstrap）重采样技术，从原始训练样本集 N 中有放回地重复随机抽取 n 个样本生成新的训练样本集合训练决策树，然后按以上步骤生成 m 棵决策树组成随机森林，新数据的分类结果按分类树投票多少形成的分数而定。 boosting是分步学习每个弱分类器，最终的强分类器由分步产生的分类器组合而成，根据每步学习到的分类器去改变各个样本的权重（被错分的样本权重加大，反之减小) 它是一种基于 boosting增强策略的加法模型，训练的时候采用前向分布算法进行贪婪的学习，每次迭代

出处 [3] 2022Q2大厂面试题共92题（含答案及解析）.pdf

特征工程可以并行开发，大大加快开发的速度。训练速度较快。分类的时候，计算量仅仅只和特征的数目相关。缺点：准确率欠佳。因为形式非常的简单，而现实中的数据非常复杂，因此，很难达到很高的准确性。很难处理数据不平衡的问题。 3、介绍下决策树算法常见的决策树算法有三种：ID3、C4.5、CART 树 ID3 算法的核心是在决策树的每个节点上应用信息增益准则选择特征，递归地构架决策树。C4.5 算法的核心是在生成过程中用信息增益比来选择特征。 CART 树算法的核心是在生成过程中用基尼指数来选择特征。4、用通俗的语言介绍下强化学习（Reinforcement Learning）

可以看出，第一个检索结果和问题是相关的，第二个检索结果和问题是完全没关系的，而第三个检索结果的最后一句话是和问题相关的。

比如问一个面试题：Bert的预训练过程是什么
检索得到的内容如下：

出处 [1] 2021Q2大厂面试题共121题（含答案及解析）.pdf

成. 15.6 bert 的改进版有哪些参考答案： RoBERTa：更强大的 BERT 加大训练数据 16GB -> 160GB，更大的batch size，训练时间加长不需要 NSP Loss： natural inference 使用更长的训练 SequenceStatic vs. Dynamic Masking 模型训练成本在 6 万美金以上（估算） ALBERT：参数更少的 BERT一个轻量级的 BERT 模型共享层与层之间的参数（减少模型参数）

出处 [2] 2022Q1大厂面试题共65题（含答案及解析）.pdf

可以从预训练方法角度解答。
… 20
5、RoBERTa 相比 BERT 有哪些改进？
…
20 6、BERT 的输入有哪几种 Embedding？

出处 [3] 2022Q2大厂面试题共92题（含答案及解析）.pdf

保证模型的训练，pre-norm 显然更好一些。 5、GPT 与 Bert 的区别 1） GPT
是单向模型，无法利用上下文信息，只能利用上文；而 BERT 是双向模型。 2） GPT 是基于自回归模型，可以应用在 NLU 和 NLG两大任务，而原生的 BERT 采用的基于自编码模型，只能完成 NLU 任务，无法直接应用在文本生成上面。 6、如何加速 Bert模型的训练 BERT 基线模型的训练使用 Adam with weight decay（Adam 优化器的变体）作为优化器，LAMB 是一款通用优化器，它适用于小批量和大批量，且除了学习率以外其他超参数均无需调整。LAMB 优化器支持自

而在文档中的结果如下：
在这里插入图片描述
可以看出，是没有检索到的相关内容的。

原因分析
使用默认配置时，虽然上传文档可以实现基础的问答，但效果并不是最好的，通常需要考虑以下几点原因。

文件解析及预处理：对于PDF文件，可能出现解析不准确的情况，导致检索召回率低；
文件切分：不同的chunk_size切分出来的粒度不一样。如果设置的粒度太小，会出现信息丢失的情况；如果设置的粒度太大，又可能会造成噪声太多，导致模型输出的结果明显错误。且单纯根据chunk_size切分比较简单粗暴，需要根据数据进行针对性优化；
embedding 模型效果：模型效果不好也会影响检索结果。

优化方法：

文件解析及预处理：一方面可以尝试不同的PDF解析工具，解析更加准确；另一方面可以考虑将解析后的内容加上标题，并保存成Markdown格式，这样可以提高召回率；
文件切分：基于策略：对于特定的文档，比如有标题的，可以优先根据标题和对应内容进行划分，再考虑chunk_size；基于语义分割模型：还可以考虑使用语义分割模型。
模型效果：尝试使用更多embedding模型，获得更精确的检索结果。如：piccolo-large-zh 或 bge-large-zh-v1.5等等。可以参考榜单：https://huggingface.co/spaces/mteb/leaderboard
向量库：如果知识库比较庞大（文档数量多或文件较大），推荐使用pg向量数据库；如果文件中存在较多相似的内容，可以考虑分门别类存放数据，减少文件中冲突的内容。
多路召回：结合传统方法进行多路召回。
精排：对多路召回得到的结果进行精排。

LLM问题

LLM回答错误、遗漏或多余

问题描述
LLM问题主要有以下几点：
1、LLM的回答会出现遗漏信息或补充多余信息的情况。
2、chatglm2-6b还会出现回答明显错误的情况。

比如我们还用上面的一个面试题：用通俗的语言介绍下强化学习
LLM基于知识库给的答案如下：

强化学习是一种人工智能技术，它通过不断地试错和学习，使机器逐步掌握如何在特定环境中实现某种目标。与监督学习不同，强化学习没有一个“老师”来指导机器，而是通过与环境的交互来不断学习。

在强化学习中，机器作为一个智能体，与环境的交互过程可以看作是多个时刻的循环。在每个时刻，机器根据当前的环境状态，依据一定的策略选择一个动作，然后接着得到一个反馈（如得分或奖励）。机器通过不断试错和学习，逐渐提高自己的策略，以最大化累积的奖励。

强化学习算法主要有三种：ID3、C4.5和CART树。其中，ID3算法通过信息增益准则来选择特征，C4.5算法则用信息增益比来选择特征，而CART树算法则是用基尼指数来选择特征。这些算法都在决策树的生成过程中应用某种准则来选择特征，以达到提高模型性能的目的。

而在文档中的结果如下：
在这里插入图片描述
可以看出，LLM并没有完全根据文档内容来回答，而是基于自己的知识进行了相应回答，而对于回答的第三段话，强化学习算法主要有三种：ID3、C4.5和CART树。可以看出，这段话的表达是完全错误的。

优化方法

优化prompt，可能会有一定效果的。但由于随机性，结果并不能得到保证。
优先使用最新的6B/7B模型：ChatGLM3-6B、Baichuan2-7B、Qwen-7B，如果资源可以支持48G以上的显卡，可以考虑使用Qwen-14B-Chat 或 Baichuan-13B-Chat，13B的模型通常好于6B/7B模型。

优化方案

PDF文档解析优化方案

Langchian-Chatchat中对于不同类型的文件提供了不同的处理方式，从项目server/knoledge_base/utils.py文件中可以看到对于不同类型文件的加载方式，大体有HTML，Markdown，json，PDF，图片及其他类型等。

LOADER_DICT = {
    
    "UnstructuredHTMLLoader": ['.html'],
               "UnstructuredMarkdownLoader": ['.md'],
               "CustomJSONLoader": [".json"],
               "CSVLoader": [".csv"],
               # "FilteredCSVLoader": [".csv"], # 需要自己指定，目前还没有支持
               "RapidOCRPDFLoader": [".pdf"],
               "RapidOCRLoader": ['.png', '.jpg', '.jpeg', '.bmp'],
               "UnstructuredFileLoader": ['.eml', '.msg', '.rst',
                                          '.rtf', '.txt', '.xml',
                                          '.docx', '.epub', '.odt',
                                          '.ppt', '.pptx', '.tsv'],
               }

这里，我们重点关注PDF文件的解析方式，并探究其可能的优化方案。从上面的文件加载字典中可以看出，PDF文件使用的加载器为RapidOCRPDFLoader，该文件的方法在项目document_loaders/mypdfloader.py中。
处理方法：

首先使用fitz（即pyMuPDF）的open方法解析PDF文件；
对于每一页的文本内容，通过get_text方法进行获取，而对于图片内容通过get_images方法进行获取，获取后通过RapidOCR对图片中的文本内容进行提取；
最后将从图片中提取的文本和原始的文本内容进行拼接，得到最终的所有文本内容。然后进行下一步的分词和文本切割。

这种方式的优点简单粗暴，基本上对于任何排版的PDF文件都能够提取到有效信息。但缺点也很明显，就是无差别，比如我们的文档本身就有较好结构，提取出来的内容也无法将结构反映出来。所以，通常情况下需要根据文档的具体情况对解析后的文档做进一步定制化处理。

以七月在线大厂面试题PDF文档为例，有以下特点：

文档具有书签，可以直接根据书签对应到具体的页码
文档结构不复杂，共有两级标题，一级标题表示一个大的章节，二级标题表示面试题的问题，文本内容为每道面试题对应的答案；
每道面试题是独立的，和其前后的面试题并没有明显的相关性。
面试题题目的长度长短不一，短的有几个词组成，长的基本一句话。
文档中除中文外，还有大量模型或算法英文词，且文档中包含部分公式和代码。

因此，可以考虑根据文档的标题进行分割，即将文档中的标题和标题对应的内容分为一块，在放入向量库的时候可以尝试两种方式，一种是只将题目进行向量化表示存入向量库，另一种是将题目和答案一起进行向量化表示存入向量库。

文档解析过程中存在的问题：
1、书签中的标题内容和文档中的标题内容并不完全一致，这种情况可能是解析后出现多余的空格导致的；
2、需要考虑一道面试题可能存在跨页的情况，一般是会出现一道面试题出现在两页的情况，但也需要考虑一道面试跨三页或多页的情况。
3、由于一级标题是有分页符的，每个一级标题会另起一页，因此在处理时也需要考虑此种情况。
4、解析的文本中带有页脚，如：第 4 页共 46 页，由于页脚的内容对面试题是没有意义的，因此也需要考虑去掉。

解决方案：
1、对于书签中的标题内容和文档中的标题内容并不完全一致的问题，一种方式有考虑去除文档中标题的空格，实现困难在于无法精确定位，如果全去掉就会出现一些英文单词拼接在一块的情况，可能对语义或后续的检索产生影响；一种方式是不去除，如果出现这种情况，则将标题所在页的信息都提取出来；
2、对于一道面试题可能存在跨页的情况，可以通过设置起始页和终止页，对相邻标题（主要是下一个标题）所在页进行判断的方式来处理；
3、对于每个一级标题会另起一页的情况，可以通过添加对特殊字符“1、”判断的方式来处理；
4、对于页脚，可以使用正则表达式进行匹配去除。

参考

基于LLM+向量库的文档对话痛点及解决方案：https://zhuanlan.zhihu.com/p/651179780
RAG检索增强的比赛参考方案：
https://github.com/MetaGLM/FinGLM
https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion
https://tianchi.aliyun.com/competition/entrance/532154?spm=a2c22.12281957.0.0.605a3b74yOyo0b
大模型外挂知识库优化：https://www.zhihu.com/people/zhan-shi-jin-27/posts
多向量检索器与查询转换：https://www.datalearner.com/blog/1051698375259477

LLM+Embedding构建问答系统的局限性及优化方案：https://zhuanlan.zhihu.com/p/641132245
与传统方法结合的多路召回：https://github.com/FlagOpen/FlagEmbedding/issues/17