从本文开始，我希望探索使用 LlamaIndex 构成可用于生产的 LLM 应用程序的不同领域。让我们从文档元数据开始。

文档元数据

文档元数据是关于数据的数据。它是有关文档的描述性信息，例如文档标题、关键字、摘要等。文档元数据通过可在检索过程中使用的附加信息来丰富节点。我们来探讨一下元数据如何在 RAG 中实现更高的检索精度。

使用案例

根据我们之前的故事之一，使用 LlamaIndex 和 OpenAI 分析财务报告，让我们扩展用例以加载美国政府 2022 财年和 2021 财年的财务报告，然后针对特定财年的财务报告提出问题。这个用例与我们之前提到的文章略有不同，因为我们没有进行比较和对比，而是对特定年份的报告进行直接问答，这是一个非常常见的 RAG 用例。

我们将说明两种场景下同一组问题的查询结果：使用元数据和不使用元数据。让我们观察一下响应的差异。

如何为文档添加元数据

您可能认为向文档添加元数据一定是一项艰巨的任务。幸运的是，LlamaIndex 最近推出了MetadataExtractor 模块。元数据提取器使用 LLM 提取与文档相关的某些上下文信息，将其存储在每个节点中，以更好地帮助检索和语言模型消除相似段落的歧义。

简而言之，元数据提取器使用LLM自动生成文档的元数据，这有助于LLM实现更准确的检索。杰出的！

元数据提取器模块开箱即用，附带一个提取器列表：

TitleExtractor：在每个节点的上下文中提取文档的标题并将其存储在document_title元数据字段中。
QuestionsAnsweredExtractor：节点级提取器。提取节点可以回答的一组问题并将这些问题存储在questions_thi

使用 LlamaIndex 构建生产就绪的 LLM 应用程序：用于更高精度检索的文档元数据文档元数据在质量检索中的重要性(教程含源码)

文档元数据

使用案例

如何为文档添加元数据

猜你喜欢

使用 LlamaIndex 构建生产就绪的 LLM 应用程序：用于更高精度检索的文档元数据 文档元数据在质量检索中的重要性(教程含源码)

文档元数据

使用案例

如何为文档添加元数据

猜你喜欢

使用 LlamaIndex 构建生产就绪的 LLM 应用程序：用于更高精度检索的文档元数据文档元数据在质量检索中的重要性(教程含源码)