在人工智能领域检索增强生成Retrieval-Augmented Generation简称 RAG已经成为构建高效 AI 系统的核心技术之一。RAG 将大语言模型LLM的生成能力与外部知识检索相结合让 AI 能够基于事实回答问题而不是凭空编造。本文将通过一系列精心设计的图解系统性地拆解 RAG 的完整流程帮助你从零到一掌握这项技术。无论你是 AI 初学者还是有一定基础的开发者都能从中获得有价值的见解。 RAG 核心流程概览在深入了解每个环节之前让我们先对 RAG 的整体架构建立一个宏观认知┌────────────────────────────┐ │ RAG 全流程概览 │ ├────────────────────────────┤ │ │ │ Query用户提问 │ │ ↓ │ │ ① 输入与预处理 │ │ ↓ │ │ ② Embedding 与索引准备 │ │ ↓ │ │ ③ 向量库召回Retrieval │ │ ↓ │ │ ④ 重排Rerank │ │ ↓ │ │ ⑤ Prompt 构造 │ │ ↓ │ │ ⑥ 生成Generation │ │ ↓ │ │ ⑦ 回答决策可选 │ │ ↓ │ │ 最终答案 │ │ │ └────────────────────────────┘图解说明这是一张手绘风格的 RAG 全流程拆解图采用米黄色背景清晰展示了从用户提问到最终生成答案的完整链路。流程可概括为四个核心关键词Query查询→ 检索 → 重排 → 生成。第一步输入与预处理Query 什么是 QueryQuery 是用户向系统提出的问题或请求。在 RAG 流程中Query 是整个过程的起点。一个好的 Query 预处理能够显著提升最终答案的质量。 Query 处理的三个关键步骤根据图解Query 输入与预处理包含三个主要阶段阶段 1接收 Query 上下文/约束可选核心目标明确用户的真实意图补全必要的约束条件。图解图示┌────────────────┐ │ 用户原始输入接口又挂了 │ │ │ │ 拆解为明确问题 │ │ • 哪个接口 │ │ • 什么时间 │ │ • 什么症状 │ │ • 查哪个版本 │ │ │ │ ✅ 最终输出明确条件 │ └─────────────────┘类比理解就像你去图书馆借书你不能只说我要找本书而需要说我要找2024年出版的关于Python编程的书。阶段 2Query 规整常见核心目标将聊天式表达转化为检索式表达减少模糊性。处理流水线原始输入我今天发现那个谁的说的一个奇怪的问题 ↓ [去噪] → [纠错] → [同义改写] → [关键实体抽取] ↓ 最终结果 关键词 [接口A, 失败]条件 (时间: 今天)阶段 3澄清与拆分可选核心目标当 Query 过宽或前提不明时先追问或拆分为可检索的子问题。示例用户输入修复方案 ↓ 拆分为三个子问题 1️⃣ 根因分析 2️⃣ 修复方案 3️⃣ 验证测试 Query 预处理的重要性核心原则好问题才有好答案。如果 Query 本身模糊不清后续无论检索多精准都无法给出令人满意的答案。第二步Embedding 与索引准备 什么是 EmbeddingEmbedding嵌入是将文本转换为数值向量的过程。在向量空间中语义相似的文本会具有相近的向量表示从而可以通过向量相似度来衡量文本间的语义关系。 知识库准备的三个阶段根据图解这一阶段分为三个主要部分阶段 1切片 元数据离线常见核心动作将文档拆分成带标签的小片段图解说明┌─────────────────────────────────┐ │ 原始文档卷轴状 │ │ ↓ │ │ ┌────┐ ┌────┐ ┌────┐ ┌────┐ │ │ │片段1│ │片段2│ │片段3│ │片段N│ ... │ │ └────┘ └────┘ └────┘ └────┘ │ │ 标题 标题 标题 标题 │ │ 时间 时间 时间 时间 │ │ │ │ 类比把一本书拆成带页码的活页 │ └─────────────────────────────────┘目的检索时有抓手方便追溯来源阶段 2向量化 建索引离线常见核心动作每个片段生成一枚语义指纹写入向量索引图解说明┌───────────────────────────┐ │ 片段 → [向量模型] → 向量 │ │ ↓ │ │ ┌─────────────┐ │ │ │ │ │ │ │ │ ← 节点网络向量空间 │ │ │ │ │ │ └─────────────┘ │ │ │ │ 标注指纹录入 │ └───────────────────────────┘阶段 3Query 向量化 对齐检查在线核心动作用户提问实时转换为向量并与检索空间对齐类比把我要找什么投射到同一张地图上确保坐标系一致第三步向量库召回Retrieval 什么是召回召回是从海量的向量数据库中快速捞出与用户问题相关的候选片段。这是 RAG 流程中的打捞环节。 召回的三个关键阶段阶段 1近邻检索 规模控制目的从海量内容里快速缩小范围Top-N 选择· · · · · · [Query] · ← 中心查询向量 · · · · · · · ┊ ↓ ╭─────────────╮ │ 虚线圆圈 │ │ Top-N 候选 │ ╰─────────────╯类比先把可能相关的书搬到桌面阶段 2过滤与约束常见过滤条件 权限⏰ 时间 数据源 文件类型类比借书要看你有没有权限进特藏室阶段 3多路召回可选核心思想语义检索 关键词检索互补召回方式擅长领域语义检索“意思对”语义理解关键词检索“字面精确”关键词匹配流程语义匹配片段 关键词片段 结构化片段 ↓ 合并去重 ↓ 最终候选集第四步重排Rerank 重排的核心价值核心目标把看起来相关变成真正能用来回答重排是将召回的候选片段进行精细化排序挑出最优质的 Top-K 证据片段。 重排的三个步骤步骤 1精细相关性判断流程Top-N 候选粗筛成果 ↓ 逐本翻目录打分 ↓ Top-K 排序证据 ↓ 桌面筛书类比桌面上先粗筛一摞书再逐本翻目录挑最对题的几本步骤 2覆盖检查核心确保片段覆盖 Query 的关键实体示例Query: 2025年报销规则 ✅ 有效片段命中 2025年、报销规则、差旅/餐饮 等关键实体 ❌ 无效片段只有报销流程概述没有具体年份和规则步骤 3多目标重排可选多维评估指标指标说明 相关性与Query的匹配程度 多样性不同来源、视角的覆盖 新鲜度内容的时效性✅ 权威性来源的可信度类比海选 → 面试筛选最终选出对的人第五步Prompt 构造 什么是 PromptPrompt 是给大模型的指令告诉模型如何基于检索到的证据回答用户问题。 Prompt 构造的三阶段阶段 1证据清洗与裁剪核心要点去重复、去无关、保留必要上下文类比就像登机箱容量有限得把最有用的东西装进去证据流文、数据 ↓ [漏斗过滤] 去重复、去无关 ↓ 模型上下文窗口阶段 2证据组织 标注核心要点按主题/子问题拼装片段附上来源、时间、标题类比把资料按主题贴到白板上给每条证据贴上出自哪本书第几页的标签┌──────────────────────────┐ │ 白板便签系统 │ │ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │ 绿标 黄标 粉标 │ │ │ 每条 标题 时间 │ │ └─────┘ └─────┘ └─────┘ │ └──────────────────────────┘阶段 3指令与输出约束组成部分 回答目标 输出格式 引用方式 拒答条件类比给写作任务列一个清晰的大纲与评分标准第六步生成Generation✍️ 生成的三个阶段阶段 1模型阅读证据核心比喻通读资料再动笔原因避免凭空发挥确保回答有根有据Query与证据包 → 芯片处理 → Query与证据对齐 → 形成能回答的内部表征图解人物蓝色短发、戴眼镜的卡通人物手拿文件夹认真研读阶段 2组织答案核心比喻写论文引用原因让答案可验证增强可信度和权威性内部表征 → 组织工厂 → 按问题结构输出答案 ↓ 关键结论对齐证据阶段 3输出控制可选输出控制面板 格式 长度️ 语气 引用密度⚠️ 不确定性提示输出选项简练版本严谨版本第七步回答决策进阶 回答决策的核心问题核心原则在能生成之外决定是否该生成这往往是容易被忽视但至关重要的一个环节。阶段 1证据充足性判断核心当证据不足或冲突时选择拒答、追问或提示不确定资料库房机器人检查证据 ↓ 有依据 → 生成答案 无依据 → 拒答/追问类比资料没找到最好先承认缺口而不是乱写阶段 2触发二次检索核心首轮命中率低时改写 Query 或拆分子问题再检索书店A没找到 → 换店B // 换关键词再找阶段 3结构化输出约束核心按固定结构结论/依据/风险输出工程级优化检索侧 三大优化方向1. Chunking分块优化问题随便撕页会丢失上下文出现中间遗失解决方案按章节结构做索引 (Contextual Retrieval Chunk)Late Chunking 技术类比按章节拆书保留上下文关联2. 检索策略优化策略向量召回 关键词 → 混合检索 → 多轮检索类比先用地图找附近再用门牌号精准定位3. Rerank 重要性上升核心从相似到可回答成为效果上限的关键阀门工程级优化系统侧️ 两大系统方向1. 缓存与复用缓存类型Query/embedding 结果缓存热门片段缓存LLM 批处理类比常用资料做成工具包下次直接取用流程Query → Query Embedding (缓存命中) → Retrieval → 热门片段缓存 ↓ ↓ Re-ranking ← ← ← ← ← ← ← ← ← ← ← ← ← ← ← ← ← ← ← ← ← ↓ Generating (LLM批处理)2. 可观测与评估三大支柱类型内容离线评测Test lab 测试集评测Recall、Faithfulness 指标在线监控Latency、Cost 实时监控失败用例闭环失败用例库 → 系统优化复盘核心理念告别感觉还行拍脑袋实现可度量地变好RAG 全流程总结┌────────────────────────────┐ │ RAG 完整流程图 │ ├────────────────────────────┤ │ │ │ ┌─────────┐ │ │ │ 用户Query │ ← 起点 │ │ └────┬────┘ │ │ ↓ │ │ ① 输入与预处理 │ │ ↓ │ │ ② Embedding 与索引准备 │ │ ↓ │ │ ③ 向量库召回 → 候选片段 │ │ ↓ │ │ ④ 重排 → Top-K 证据 │ │ ↓ │ │ ⑤ Prompt 构造 → 证据包 │ │ ↓ │ │ ⑥ 生成 → 答案 │ │ ↓ │ │ ⑦ 回答决策 → 最终输出 │ │ │ └────────────────────────────┘关键技术要点汇总概念解释RoPE旋转位置编码KV Cache键值缓存加速推理ANN近似最近邻搜索Multi-Head Attention多头注意力机制Context Window模型上下文窗口限制幻觉模型凭空生成错误信息实用建议 开发建议Query 预处理不可省略好的 Query 是好答案的前提Chunking 需要精心设计考虑按语义章节切分而非简单字数切分多路召回效果更好语义 关键词双重保障Rerank 是关键阀门不要在重排上节省资源Prompt 需要迭代优化根据实际效果持续调整⚠️ 常见陷阱忽略 Query 预处理导致检索效率低下Chunking 过于粗暴丢失关键上下文只依赖向量检索忽视关键词召回的价值跳过回答决策容易产生幻觉和误导缺乏评估闭环无法持续优化结语RAG 作为连接大模型与外部知识的桥梁其重要性日益凸显。通过本文的图解拆解希望你对 RAG 的每个环节有了更清晰的认识。记住一个优秀的 RAG 系统不仅仅是把各个模块拼凑在一起更需要在每个环节都精心打磨形成高效协同的整体。持续优化、注重评估、拥抱迭代——这是构建生产级 RAG 系统的关键。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】