在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验

RAG已死?上下文工程和语义层在智能体AI中的崛起

引言

检索增强生成(以下简称RAG)曾经是解决大语言模型(LLM)局限性的革命性方案,但它正在快速演变为更庞大的体系。过去两年企业组织意识到,仅靠向量搜索检索文本片段已远远不够。上下文必须具备治理性、可解释性,并能随智能体(Agent)的目标自适应。

本文探讨了这种演变是如何形成的,以及它对正在构建“可负责任推理系统”的数据与 AI 负责人意味着什么。

读完本文,你将找到以下核心问题的答案:

知识图谱如何改进RAG?

知识图谱为企业数据提供结构和意义,跨文档和数据库链接实体和关系,使检索对人类和机器都更加准确和可解释。

语义层(Semantic Layer)如何帮助大语言模型(LLM)检索更好的答案?

语义层标准化数据定义和治理策略,让 AI 智能体能够理解、检索并在各种数据、工具、记忆乃至其他智能体之间进行推理。

在智能体AI时代,RAG如何演变?

检索正在成为更大推理循环(即“上下文工程 Context Engineering”)中的一环,在这一循环中,智能体会动态地写入、压缩、隔离并选择上下文,以完成复杂任务。

 

核心要点(太长不看版)

RAG 在 ChatGPT 推出后崛起。人们很快意识到 LLM 的上下文窗口有限——无法把所有企业数据直接“喂”进对话界面。团队因此采用 RAG 及其变体(如 GraphRAG,即基于图数据库的检索增强生成)来在查询时引入外部上下文。

然而RAG的流行很快暴露了其弱点:若检索到的内容不准确、不相关或过多,反而会降低输出质量。虽然出现了重排序器(Re-ranker)等技术以弥补,但原始 RAG 架构并未为“Agentic(智能体驱动)世界”而设计。

随着AI从单一提示转向自主智能体,检索及其变体只是智能体工具箱中的一环,与“写入、压缩、隔离上下文”等操作并列。随着工作流复杂度和信息需求的提升,RAG 将继续演化——可能被称为 Context Engineering(上下文工程)、RAG 2.0 或 Agentic Retrieval(智能体检索)。

新一代的检索体系需要在不同数据结构、工具、记忆与智能体之间进行元数据治理。评估标准也将扩展至:准确性、相关性、语义扎实度(groundedness)、来源可追溯性(provenance)、覆盖度(coverage)与时效性(recency)。

在这一演化中,知识图谱将成为实现上下文感知、策略感知与语义落地的关键支柱。

 

RAG的崛起

什么是RAG?

RAG(Retrieval-Augmented Generation,检索增强生成)是一种技术,通过在发送给 LLM 的提示(prompt)中加入检索到的相关信息,以改进模型的回答质量。

ChatGPT 于 2022 年 11 月爆红后,企业发现——LLM 并未训练在自己的私有数据上。于是人们开始在查询时动态检索相关资料,并把结果嵌入提示中,这一做法就是 RAG。

该术语最初来源于 2020 年 Meta 的论文,但直到 GPT 模型的流行,RAG 才真正进入主流视野。

在生态上,LangChain 与 LlamaIndex 成为开发者构建 RAG 流水线的关键工具:

  • LangChain 提供提示模板、LLM、智能体与记忆模块的“链式组合”;
  • LlamaIndex 专为解决 GPT-3 上下文窗口受限问题而生。

随后,人们发现向量数据库(如 Weaviate、Pinecone、Chroma)能高效支撑检索过程,逐渐成为 RAG 架构的标配组件。

什么是GraphRAG?

GraphRAG 是 RAG 的一种变体,其底层检索数据库是知识图谱(Knowledge Graph)或图数据库。

这一变体尤为重要,因为它让模型能在“实体与关系”的层面上进行推理,而不仅是处理平面文本。

2023 年初,研究者开始探索 LLM 与知识图谱的结合。2023 年底,data.world 的 Juan Sequeda、Dean Allemang 与 Bryon Jacob 发表论文,证明知识图谱能显著提升 LLM 的准确性与可解释性。2024 年 7 月,微软开源 GraphRAG 框架,让图检索技术走入更广泛的开发者社区,确立了 GraphRAG 在行业中的独立地位。

这一浪潮让知识图谱重获新生,正如 2012 年谷歌发布其 Knowledge Graph 时那样,结构化上下文与可解释检索的需求再度被放大。

从2023年到2025年,市场迅速响应:

  • 2023年1月23日 – Digital Science 收购 metaphacts(metaphactory 平台开发商),强调加速知识图谱应用与“知识民主化”;
  • 2023年2月7日 – Progress于2023年2月收购了MarkLogic。MarkLogic是一个多模态NoSQL数据库,在管理RDF数据(图技术的核心数据格式)方面具有特殊优势。
  • 2024年7月18日 – 三星收购了Oxford Semantic Technologies,RDFox图数据库的制造商,以支持设备端推理和个人知识能力。
  • 2024年10月23日 – Ontotext 与 Semantic Web Company 合并为 Graphwise,明确聚焦 GraphRAG;
  • 2025年5月7日 – ServiceNow宣布收购data.world,将图式数据目录与语义层集成至企业工作流平台。

此外,Salesforce 以 80 亿美元收购 Informatica(元数据管理领导者)更表明市场正向语义治理层集中。这些趋势显示:知识图谱已从元数据工具,转变为 AI 的语义骨架——回归其“专家系统”之源。GraphRAG 让知识图谱再次成为 AI 检索、推理与可解释性的关键引擎。

 

RAG的式微与上下文工程的崛起

RAG死了吗?不,但它已经进化了。

RAG的原始版本依赖单次密集向量搜索,并将排名靠前的结果直接输入LLM。GraphRAG 在此基础上引入了图分析与实体/关系过滤,但仍面临相关性、扩展性与噪声问题。

于是,RAG 进入新阶段,被称为:Agentic Retrieval(智能体检索)、RAG 2.0 或 Context Engineering(上下文工程)。

2024 年的 RAG 热潮过后,人们逐渐觉醒。正如 Contextual AI 的 Douwe Kiela(Meta 原始 RAG 论文作者)所言:“做一个 RAG Demo 很容易,但让它在企业级数据下可扩展,是完全不同的问题。”

Rajiv Shah 进一步指出: “RAG 在百份文档下很好用,但一旦扩展到十万或百万级文档,问题就来了。”

与此同时,LLM 的上下文窗口也在扩大——RAG 诞生的初衷正在被弱化。Bloomberg 的 Sebastian Gehrmann 指出:“如果我能直接粘贴更多文档,那我就不需要再用那么多技巧缩小上下文窗口了。但更长上下文带来的是延迟和成本的成倍增加。”

此外,随意塞入过多上下文还会降低性能: 若检索内容不相关,会出现“上下文中毒(context poisoning)”“上下文冲突(context clash)”; 即使内容相关,信息量过大也会导致“上下文混乱(context confusion)”“上下文分散(context distraction)”。 Databricks(2024年8月)与 Chroma 的研究将这一现象称为“上下文腐烂(context rot)”。虽然术语各不相同,但多项研究表明,超过一定的上下文大小后,模型准确性往往会下降。

为了解决压垮模型或提供不正确或不相关信息的问题,重排序器(Re-ranker)成为新趋势,用于在检索后筛选最相关片段。主流方案包括 Cohere Rerank、Voyage AI、Jina、BGE 等。 但在智能体时代,这仍不足够——RAG 正被嵌入到智能体推理循环中,这就是 Context Engineering(上下文工程)。

什么是上下文工程?

LangChain 的 Lance Martin 如此定义::“上下文工程是门艺术与科学——让智能体在每一步推理中,只填充恰到好处的上下文。”

我想关注上下文工程有两个原因:RAG 2.0和智能体检索术语的创造者(Contextual AI和LlamaIndex)已经开始使用上下文工程这个术语;并且根据Google搜索趋势,它是一个更受欢迎的术语。上下文工程也可以被认为是提示工程的演变。提示工程是关于以一种能够让你获得想要结果的方式制作提示,而上下文工程是关于用适当的上下文补充该提示。

RAG在2023年变得突出,在AI时间线上那是永恒之前。从那时起,一切都变成了”智能体化”。RAG是在假设提示将由人类生成、响应将由人类阅读的前提下创建的。有了智能体,我们需要重新思考这是如何工作的。

Martin 将上下文工程拆为四个阶段:

  • Write(写入):记录任务中的关键信息;
  • Compress(压缩):通过摘要或剪枝减少无关上下文;
  • Isolate(隔离):按任务或智能体分片上下文,避免干扰;
  • Select(选择):动态选择最相关的上下文(即检索)。

智能体需要编写(或持久化或记住)从任务到任务的信息,就像人类一样。智能体在从任务到任务时往往会有太多上下文,需要以某种方式压缩或浓缩它,通常通过摘要或”修剪”。与其将所有上下文都给模型,我们可以隔离它或将其分配给不同的智能体,这样它们就可以”同时探索问题的不同部分”,而不是冒上下文腐烂和结果降级的风险,这里的想法是不给LLM足够的绳子让它吊死自己。

智能体必须在需要时使用它们的记忆,或调用工具来检索额外的信息,即它们需要选择(检索)使用什么上下文。其中一个工具可能是基于向量的检索,即传统的RAG。但这只是智能体工具箱中的一个工具。正如AWS的Mark Brooker所说,”我确实期望我们将看到围绕向量的一些华丽新鲜感平静下来,我们进入一个世界,在这个世界中,我们在工具箱中有了这个新工具,但我们正在构建的许多智能体正在使用关系接口。它们正在使用那些文档接口。它们正在使用按主键查找、按辅助索引查找。它们正在使用按地理位置查找。所有这些在数据库领域已经存在了几十年的东西,现在我们还有一个,那就是通过语义含义查找,这是非常令人兴奋、新颖和强大的。”

那些处于最前沿的人已经在这样做了。Martin引用Windsurf的Varun Mohan的话说,”我们[…]依赖于grep/文件搜索、基于知识图谱的检索等技术的组合,以及…一个重排序步骤,其中[上下文]按相关性顺序排列。”

原始 RAG 已死,但上下文工程让检索进入黄金时代。我们如何确保智能体能够跨企业检索不同的数据集?从关系数据到文档?这一切,需要一个新的核心组件——语义层(Semantic Layer)。

 

上下文工程需要语义层

什么是语义层?

语义层是一种将元数据附加到所有数据的方式,这种形式既是人类可读的又是机器可读的,以便人和计算机可以一致地理解、检索和推理它。

Snowflake 推出了 Open Semantic Interchange (OSI) 标准,试图为企业数据语义化建立统一规范。但仅聚焦关系型数据过于狭隘—— RAG 最初就是为了解决非结构化数据(文档、文本、代码、知识库)而生的。

谷歌几十年来一直使用结构化元数据(machine-readable metadata)实现全球范围的信息检索。这里的结构化数据,我指的是机器可读的元数据,或者如同谷歌所描述的,”一种用于提供有关页面信息和对页面内容进行分类的标准化格式。”图书馆员、信息科学家和SEO从业者也长期利用知识组织、语义网、结构化标注等手段解决非结构化信息的可检索性问题。

因此语义层的未来应融合两种传统:关系数据管理的严谨性+知识图谱与图书馆学的的语境。它将成为连接结构化与非结构化世界的桥梁。

 

RAG的未来

以下是我对RAG未来的预测。

RAG 将持续向 Agentic 模式演化。 这意味着上下文检索将成为推理循环中的一环,与写入、压缩、隔离等操作构成闭环。例如,Anthropic的模型上下文协议(MCP)将检索视为可以通过MCP提供给智能体的工具;OpenAI提供文件搜索作为智能体可以调用的工具;LangChain的智能体框架LangGraph允许你使用节点和边模式(像图一样)构建智能体;在他们的快速入门指南中,你可以看到检索(在这种情况下是网络搜索)只是智能体可以用来完成其工作的工具之一。他们在这里将检索列为智能体或工作流可以采取的行动之一。维基数据也有一个MCP,使用户能够直接与公共数据交互。

检索将扩展为多模态(Multimodal Retrieval)。 未来可同时处理关系型数据、文档、图片、音频、地理与视频数据。LlamaIndex提供四种”检索模式”:块、通过元数据的文件、通过内容的文件、自动路由。它们还提供复合检索,允许你同时从多个源检索。Snowflake 与 LangChain 也提供跨类型检索接口,具体如,Snowflake为内容提供Cortex Search,为关系数据提供Cortex Analyst;LangChain提供关系数据、图数据(Neo4j)、词法和向量的检索器。

检索将涵盖关于工具本身的元数据,以及”记忆”。 各大平台(Anthropic、OpenAI、AWS、Databricks 等)均在构建工具注册与记忆管理体系,使智能体能在工作流中检索长期与短期记忆。

知识图谱将作为关系数据和非结构化数据之间的元数据层发挥关键作用, 用更强大的元数据管理框架取代目前使用的狭义语义层定义。我认为,我们在过去几年中看到的市场整合以及上面描述的情况,表明市场越来越认识到,随着智能体被要求跨企业数据执行更复杂的任务,知识图谱和元数据管理将至关重要。Gartner 2025年5月的报告”调整您的数据工程学科以有效支持AI用例”建议数据工程团队采用语义技术(如本体和知识图谱)来支持AI用例。知识图谱、元数据管理和参考数据管理在大型生命科学和金融服务公司中已经无处不在,主要是因为它们受到高度监管,需要基于事实的、有根据的数据来支持其AI计划。随着其用例变得更加成熟并需要可解释的答案,其他行业将开始采用语义技术经过验证的方法。

上下文检索的评估指标将标准化。 Ragas、Databricks Mosaic AI Agent Evaluation和TruLens都提供了评估RAG的框架。Evidently提供开源库和关于RAG评估的教学材料。LangChain的评估产品LangSmith有一个专注于RAG的模块。重要的是,这些框架不仅评估给定提示的答案的准确性,还评估上下文相关性和根据性(响应在多大程度上得到上下文的支持)。一些供应商正在构建指标来评估检索上下文的出处(引用和来源)、覆盖范围(我们检索到足够的内容了吗?)和新鲜度或时效性。

策略化治理(Policy-as-Code)将成为必要防护。 检索结果需符合访问控制、隐私、合规与最佳实践。 随着 RAG 引入新治理风险,OPA、Oso 等策略引擎正被嵌入智能体工作流中。

 

结论

RAG从来不是最终目标,只是起点。随着我们进入智能体时代,检索正在演变为完整学科——上下文工程。智能体不仅要“找文档”,更要理解在推理每一步中,哪些数据、工具、记忆最为相关。这需要语义层:一个贯穿企业全域的理解与治理系统。知识图谱、本体和语义模型将提供这层“连接组织”。新一代检索不仅关乎速度和准确性。更要可解释、可信赖。

RAG的未来不是单独的检索,而是具备上下文感知、策略感知和语义根基的检索。

 

原文作者:Steve Hedden

原文链接:https://towardsdatascience.com/beyond-rag/