收藏必备！小白程序员轻松入门大模型：RAG架构详解与实践

张

张建站

2026/5/13 11:12:20

10分钟阅读

本文详细介绍了检索增强生成RAG架构旨在帮助初学者理解大模型如何结合外部知识库提升回答的准确性和时效性。文章涵盖了RAG的四种架构类型、黑盒与白盒增强策略、知识库构建、查询与检索增强方法以及系统评估和优化增强过程。通过本文读者将学习到如何构建高效的RAG系统提升大模型在特定领域的应用效果。导航传统大语言模型主要依赖参数中的隐式知识进行回答容易受到知识过期、幻觉和领域知识不足等问题影响。RAG 的核心思想是在生成答案之前先从外部知识库中检索相关信息再将这些信息作为上下文提供给大语言模型从而提升回答的准确性、可追溯性和时效性。检索增强生成架构架构类型是否修改大模型参数是否修改检索器参数代表方法特点无微调 RAG否否In-Context RALM简单、易落地检索器微调否是REPLUG适合黑盒大模型仅语言模型微调是否RETRO强化模型利用外部知识的能力检索器与模型协同微调是是Atlas效果潜力高但训练复杂黑盒增强架构黑盒增强架构指的是不修改或无法访问大语言模型内部参数主要通过Prompt、外部检索、检索器优化或输出反馈来提升生成效果。无微调无微调架构是所有RAG架构中形式最简单的。该架构中检索器和语言模型经过分别独立的预训练后参数不再更新直接组合使用。In-Context RALM是该框架下的代表性方法在实际工程中大多数企业级 RAG 系统最初都采用这种形式知识库、Embedding 模型、向量数据库和大语言模型相互独立只通过 Prompt 将检索结果注入上下文。检索器微调在检索器微调架构中大语言模型参数保持不变仅通过语言模型的输出反馈来优化检索器。其核心思想是如果某个文档能让语言模型更容易生成正确答案那么这个文档就应该被检索器赋予更高权重。REPLUG 是这类方法的代表之一。它利用语言模型对不同检索文档的困惑度变化作为监督信号训练检索器更倾向于召回那些能显著提升生成质量的文档。白盒增强架构大语言模型和检索器是独立预训练的二者可能存在匹配欠佳的情况。白盒增强架构通过微调大语言模型来配合检索器以提升RAG 的效果。根据是否对检索器进行微调分为两类仅语言模型微调检索器和语言模型协同微调仅微调语言模型仅微调语言模型指的是检索器作为一个预先训练好的组件其参数保持不变大语言模型根据检索器提供的上下文信息对自身参数进行微调。RETRO是微调语言模型的代表性方法之一。检索器和语言模型协同微调在该架构中检索器和语言模型同时进行微调以实现更好的协同效果。该方法的代表性方法是Atlas。知识库构建在RAG 框架中知识库构建主要涉及数据采集及预处理与知识库增强两个步骤。数据采集及预处理数据采集: 来自不同渠道的数据被整合、转换为统一的文档对象。这些文档对象不仅包含原始的文本信息还携带有关文档的元信息Metadata预处理: 预处理可以提升数据质量和可用性。数据预处理主要包括数据清洗和文本分块两个过程。数据清洗旨在清除文本中的干扰元素。文本分块是将长文本分割成较小文本块的过程文本分块的效果直接影响后续检索结果的质量知识库增强知识库增强是通过改进和丰富知识库的内容和结构以提升其质量和实用性查询生成利用大语言模型生成与文档内容紧密相关的伪查询。这些伪查询从查询的角度来表达文档的语义可以作为相关文档的“键”供检索时与用户查询进行匹配。标题生成利用大语言模型为没有标题的文档生成合适的标题查询与检索增强查询增强查询增强是指在检索阶段对用户输入的查询进行改进和优化以提升检索结果的相关性和准确性。查询增强的主要方法包括查询语义增强: 通过同义改写和多视角分解等方法来扩展、丰富用户查询的语义以提高检索的准确性和全面性查询内容增强: 通过生成与原始查询相关的背景信息和上下文从而丰富查询内容提高检索的准确性和全面性。查询内容增强方法通过引入大语言模型生成的辅助文档为原始查询提供更多维度的信息支持检索器检索器是RAG系统中的核心组件负责从知识库中检索出与用户查询相关的文档判别式检索器判别式检索器通过判别模型对查询和文档是否相关进行打分。判别式检索器通常分为两大类稀疏检索器稀疏检索器Sparse Retriever是指使用稀疏表示方法来匹配文本的模型通过统计文档中特定词项出现的统计特征来对文档进行编码然后基于此编码计算查询与知识库中的文档的相似度来进行检索稠密检索器稠密检索器一般利用预训练语言模型对文本生成低维、密集的向量表示通过计算向量间的相似度进行检索生成式检索器生成式检索器通过生成模型对输入查询直接生成相关文档的标识符。检索效率增强向量数据库可以实现高效的向量检索与查询。向量数据库的核心是设计高效的相似度索引算法。常用的索引技术主要分为三大类基于空间划分: 将搜索空间划分为多个区域来实现索引基于乘积量化: 将高维向量空间划分为多个子空间并在每个子空间中进行聚类得到码本和码字以此作为构建索引的基础基于图: 构建一个邻近图将向量检索转化为图的遍历问题检索结果重排通过对检索结果重排可以提升检索结果的相关性和准确性。常见的重排方法包括基于交叉编码的方法基于交叉编码的重排方法利用交叉编码器Cross-Encoders来评估文档与查询之间的语义相关性基于上下文学习的方法基于上下文学习的方法是指通过设计精巧的Prompt使用大语言模型来执行重排任务RAG 系统评估RAG 系统的评估通常需要同时关注检索质量和生成质量。检索质量评估Recall相关文档是否被召回。Precision召回结果中有多少是真正相关的。MRR正确文档是否排在靠前位置。nDCG综合考虑相关性和排序位置。生成质量评估正确性答案是否符合事实。忠实性答案是否基于检索到的证据生成。完整性是否覆盖用户问题的关键方面。可引用性是否能给出明确来源。幻觉率是否编造不存在的信息。优化增强过程RAG 并不意味着每次生成都必须检索。是否检索、在哪里融合检索结果、是否需要多轮检索都会影响系统成本、延迟和答案质量。何时增强判断是否需要增强的核心在于判断大语言模型是否具有内部知识。判断模型是否具有内部知识的方法可以分为两类:外部观测法通过 Prompt 询问模型是否具备相关知识或通过置信度、困惑度等统计信号进行判断。内部观测法通过检测模型内部神经元或隐藏状态判断模型是否存储相关知识。这类方法通常需要访问模型内部参数更适合白盒场景。内部/外部观测法都存在一定局限性最好是定义一个决策链: 规则兜底 LLM 判断检索质量评估证据充分性验证.何处增强可以在输入端、中间层、输出端使用检索的结果:输入端: 直接将检索到的外部知识文本与用户查询拼接到Prompt中然后输入给大语言模型,主流方式。中间层: 先将检索到的外部知识转换为向量表示然后将这些向量插入通过交叉注意力融合到模型的隐藏状态中。黑盒架构中无法使用。输出端: 利用检索到的外部知识对大语言模型生成的文本进行校准是一种后处理的方法多次增强分解式增强将复杂问题分解为多个子问题子问题间进行迭代检索增强最终得到正确答案渐进式增强将问题不断细化然后分别对细化的问题进行检索增强力求给出全面的答案以覆盖用户需要的答案如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

快速搭建 Nexior AI 平台使用 Netlify

Nexior 是一个开源项目，旨在帮助用户快速部署自己的 AI 应用网站，包括 AI 问答、Midjourney 绘图、知识库问答、艺术二维码等功能。用户无需自己开发 AI 系统、购买 AI 账户、担心 API 支持或配置支付系统，完全零启动成本，并且能够…...

2026/5/13 11:11:06 阅读更多 →

数据清洗完整指南：Datasets错误处理与数据质量优化技巧

数据清洗完整指南：Datasets错误处理与数据质量优化技巧【免费下载链接】datasets 🤗 The largest hub of ready-to-use datasets for AI models with fast, easy-to-use and efficient data manipulation tools 项目地址: https://gitcode.com/gh_mir…...

2026/5/13 11:11:05 阅读更多 →

Kinovea运动视频分析：免费开源的专业动作捕捉与测量终极指南

Kinovea运动视频分析：免费开源的专业动作捕捉与测量终极指南【免费下载链接】Kinovea Video solution for sport analysis. Capture, inspect, compare, annotate and measure technical performances. 项目地址: https://gitcode.com/gh_mirrors/ki/Kinovea …...

2026/5/13 11:11:05 阅读更多 →

CANN/ops-transformer FlashAttention V2

aclnnFlashAttentionScoreV2 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况产品是否支持Ascend 950PR/Ascend 950DTAtlas A…...

2026/5/13 8:58:04 阅读更多 →