connection→Source→Load→Transform→Embed→Store→Retrieve这张图是LangChain 标准 RAG 数据全生命周期流水线分为「入库预处理链路前 5 步Source→Load→Transform→Embed→Store」「在线检索链路Retrieve」两大阶段对应向量知识库从原始文件到召回文档全流程。一、分步拆解从左→右1. Data connection → Source原始数据源接入数据源范围PDF/Word/Excel、网页 HTML、Markdown、图片 OCR、聊天记录、邮件、API 接口、短视频文案、数据库文档等异构文件图中各类图标。LangChain 对应组件各类DocumentLoaderPyPDFLoader、WebBaseLoader、CSVLoader、UnstructuredLoader负责对接五花八门的数据源。作用把散落的多格式原始数据统一接入 RAG 系统。2. Load文档加载功能Loader 读取源文件把不同格式内容统一解析为 LangChain 标准Document(page_content, metadata)对象。输出批量原生完整文档文本未做切割。示例PDFLoader 读取整本 PDF生成一个完整 Document。3. Transform文本切分 预处理核心操作文本拆分Splitter 清洗过滤文本分片RecursiveCharacterTextSplitter按字符 / 语义切块chunk解决超长文本向量化丢失细节数据清洗剔除空行、乱码、无效符号、水印冗余内容输出多段短文本 Chunk小块文档是后续 Embedding 的最小单元。拓展优化ParentDocumentRetriever 在这里做大小双切片小切片用于向量检索、大切片留存原文。4. Embed向量化编码原理调用 Embedding 模型OpenAIEmbedding、BGE、text-embedding 系列将自然语言 Chunk 转为多维浮点向量如图中[0.5,0.2...]数字数组语义相近的文本向量空间距离更近。关键点文字→数学向量是向量相似度检索的数学基础。5. Store向量持久化入库功能文本向量 原文档 元数据一并存入向量数据库Chroma/FAISS/Milvus/PGVector永久落盘存储。两种存储向量存入向量库索引用于相似度计算原文 Document向量库 / 外置文档库留存召回后返回原文。前 5 步统称RAG 知识库构建阶段离线建库一次性批量执行6. Retrieve在线检索用户提问阶段用户提问触发在线实时执行RAG 推理阶段用户 Query → 同样经过 Embedding 生成提问向量向量库做余弦相似度计算召回 Top-K 最相似的 Chunk 文档召回文档拼接进 Prompt送入 LLM 生成答案两种落地形态✅ 固定 RAGRetrieve 固定嵌入 LCEL 链路所有提问强制检索 ✅ Agent-RAGRetriever 封装 ToolLLM 按需自主调用检索。二、结合之前知识点关联Retriever 本质就是Retrieve环节的代码封装BaseRetriever 所有子类ChromaRetriever/BM25/Ensemble 等全部实现该步骤RAG 离线建库 (Source~Store) 在线检索 (Retrieve)Memory vs RAG本流程产出的向量库 RAG 长期硬盘记忆LangChain Memory 是会话短期内存不在本流程内。三、工程优化节点全流程可优化位置Transform优化分片大小、重叠值避免上下文断裂Embed替换本地开源 Embedding 降低接口成本RetrieveMultiQueryRetriever/ContextualCompression/Ensemble 多路召回提升召回准确率。