面向真正构建AI产品的工程师——而非仅止于空谈者的第一性原理指南坦诚而言市面上绝大多数AI术语汇编类文章其目标受众是那些希望在会议中显得见多识广的人。而本文则专为那些真正动手构建的人而写。两者之间存在本质差异。如果你是一名从事AI应用开发的工程师——或正有此打算——那么模糊不清的术语概念实则暗藏风险。它会导致错误的架构决策让你为错误的问题选对工具最终造出令人惊艳的演示原型却产出注定失败的产品。因此本文并非提供一本简单的术语词典。笔者旨在为你构建一个思维模型——20个术语按照它们内在的逻辑关联顺序逐一阐释。读罢此文你收获的将不仅是定义本身更是对底层系统运作机理的深刻理解。让我们从零开始逐步构建。基石一句话阐明一切在展开术语列表之前先用一句话锚定后续所有内容大型语言模型本质上是一个经过训练、用于预测序列中下一个词元Token的神经网络。仅此而已。这便是整个体系的基石。给它输入“All that glitters…”所有闪光之物……它会预测“…is not gold.”……并非都是金子。预测下一个词元这一核心思想经过互联网规模数据的重复训练正是驱动GPT-4、Claude、Gemini以及过去三年间你所使用的几乎所有AI产品的根本动力。本文后续所有内容都将围绕这一机制如何运作、我们如何使其变得有用以及我们如何以可承受的成本将其交付这三个层面展开。第一层表征Representation文本如何转化为机器可理解的形态1. 大型语言模型Large Language Model, LLM大型语言模型是一个经过训练、用于预测输入序列中下一个词元的神经网络。给它all that glitters它预测is not gold。这听起来过于简单。然而当这一机制在互联网规模的数据上以数千亿参数、数万亿词元的规模进行扩展时这个单一思想便催生了能够写作、推理、编码、总结、翻译乃至日益具备行动能力的系统。LLM的实际运作原理• 逐词元处理输入文本• 利用从海量数据集中习得的统计模式• 每次预测结果作为下一次预测的输入形成连贯的输出链思维模型LLM并非答案数据库而是一台用于智能续写的机器。本文后续所有内容均建立在此基础之上。2. 词元化Tokenization在模型进行任何预测之前它需要将你的文本分解成可处理的单元。这便是词元化。一个词元Token并不总是一个单词。它可以是• 一个完整的单词• 一个子词片段• 标点符号• 空白字符• 或一个常见的形态学语块如ing或un。以短语all that glitters为例。你可能会认为三个单词三个词元。但自然语言远非如此规整。像sing、“singing”、“singer”、singers这类词共享一个词根。一个仅按空格分割的词元化器会完全忽略这一点。优秀的词元化器会保留形态学模式——即单词内部的结构性构件——从而使模型能更高效地学习语言。词元化对工程师的重要性• 词元数量决定API成本和上下文窗口使用量• 糟糕的词元化会导致模型误解你的文本• 理解词元有助于编写更高效的提示词思维模型词元化即翻译。它将人类文本转化为机器可实际计算的离散单元。这是第一步始终如此。3. 向量Vectors词元告诉模型存在哪些片段。向量则告诉模型这些片段意味着什么。向量是一组数字列表。在AI领域这些数字将某个单词——或任何概念——放置在一个高维数学空间中。在这个空间里• 相似的含义彼此靠近• 无关的含义彼此远离• 相反的含义指向相反方向。这一过程被称为向量化Vectorization或嵌入Embedding。向量化过程• 将离散的词元转换为连续的数值表示• 通过距离度量实现语义相似度计算• 使模型能够推理含义而不仅仅是文本模式思维模型文本是符号化的模型是数值化的。向量是连接人类语言与机器计算的桥梁。没有这座桥梁其他一切都无从谈起。4. 注意力机制Attention Mechanism现在我们触及现代AI中最重要的思想之一。向量本身无法解决以下问题单词Apple具有多重含义。在句子“Apple reported strong quarterly revenue”苹果公司报告了强劲的季度营收中它指代公司。在句子“This apple tastes incredible”这个苹果味道好极了中它指代水果。同一个单词同一个向量含义却截然不同。注意力机制正是模型解决这种歧义的方法。它允许模型检查周围的词元并根据上下文动态调整任何单词的表征。单词revenue营收将Apple拉向公司的含义单词tastes味道则将Apple拉向水果的含义。这种调整在模型内部、每一层、对每个词元同时进行。注意力机制的实际应用• 在解释含义时考虑邻近和远处的词元• 根据上下文动态调整词元表征• 是2017年论文《Attention Is All You Need》的核心突破思维模型注意力机制是模型在构建上下文含义时决定关注什么、关注多少的过程。这一思想改变了AI的发展轨迹。其后所有强大的AI系统都建立在此基础之上。第二层学习Learning模型如何从数据中获取能力5. 自监督学习Self-Supervised Learning这里有一个具有经济意义的问题如何训练一个对世界有如此深刻理解的模型——而无需人类标注数百万个示例答案是使用自监督学习。其核心洞察在于数据本身已经包含了监督信号。对于文本而言任务自动生成给定所有先前的词元预测下一个。互联网上的每个句子都自动成为一个训练示例。无需标注员只需文本和算力。自监督学习如何实现规模化• 消除了早期AI中制约发展的标注瓶颈• 适用于图像预测掩码区域、视频预测缺失帧、音频预测缺失片段• 将互联网规模的数据转化为可用的训练信号思维模型与其让人类标注一切不如利用数据的自然结构自动创建学习任务。这一思想使现代AI在经济上成为可能。没有它我们无法负担构建现有系统所需的成本。6. 变换器架构Transformer Architecture如果将LLM比作汽车那么变换器Transformer就是引擎。变换器是当今几乎所有主流语言模型所采用的特定神经网络架构。它通过重复的层来处理词元每一层包含一个注意力模块——确定哪些词元对理解当前词元至关重要一个前馈网络——将该理解转化为更丰富的表征归一化和跳跃连接——使深层堆叠稳定且可训练的工程选择各层的作用• 较低层捕获句法和简单模式• 中间层构建语义关系• 较高层捕获语气、隐含意义、长距离依赖——这些感觉上像是理解的东西思维模型变换器是引擎LLM是汽车。你最终可以更换引擎——但就目前而言正是这个引擎构建了整个时代。其他架构也存在如状态空间模型、基于扩散的方法和混合设计正在涌现。但变换器构建了AI的当下。第三层适配Adaptation如何将通用能力转化为特定行为7. 微调Fine-Tuning基础模型具有令人印象深刻的广度。它已在代码、书籍、对话、科学论文、文档、论坛上进行了训练。这赋予了它通用的语言能力。但这并不意味着它擅长你的特定任务。微调Fine-Tuning是指在一个预训练模型的基础上使用更窄的数据集对其进行进一步训练以塑造其在特定领域的行为。现实世界中的微调示例• 医疗问答对 → 临床回答风格• 法律文件 → 合同分析行为• 客户支持记录 → 你产品的语气和政策• 代码库示例 → 针对你技术栈的编码助手微调的重要性• 为特定领域定制通用能力• 惩罚看似合理但不受欢迎的回答• 无需从头训练即可实现专用模型思维模型预训练赋予模型广度微调赋予模型方向。你并非在教它语言而是在教它如何在你的上下文中行事。8. 少样本提示Few-Shot Prompting微调会改变模型权重。成本高昂需要数据耗费时间。少样本提示Few-Shot Prompting则无需这些。相反你在推理时直接将几个示例放入提示词中。输入分类情感我喜欢这个产品输出正面输入分类情感这个用了一天就坏了输出负面输入分类情感它准时到达了输出???模型看到模式并遵循它。无需权重更新无需训练只需上下文。对工程师的好处• 无需重新训练即可提高回答质量• 帮助模型理解预期的格式和风格• 迭代和调整速度快思维模型向模型展示两个已解决的示例然后要求它解决第三个。它从提示词内部的演示中泛化。这之所以强大是因为它成本低廉、速度飞快而且往往出奇地有效。## 9. 基于人类反馈的强化学习 (RLHF)微调是利用数据来塑造模型。而 RLHF 则是利用人类的偏好来塑造模型。其运作流程如下• 模型针对同一提示生成多个回复• 人类评估者对这些回复进行比较并选出更优者• 更优的回复获得正向信号较差的则获得负向信号• 通过大量样本的反复迭代模型逐渐学会生成更符合人类偏好的输出RLHF 的实际作用• 使模型行为与人类满意度对齐• 减少有害、有偏见或无帮助的输出• 其灵感来源于行为条件反射——奖励良好行为抑制不良行为核心思想模型预训练教会模型语言。RLHF 教会模型礼仪。它并非创造智能而是塑造行为使其更贴近人类的真实需求。思维链推理有时模型反应迅速但结果错误。它们直接从问题跳跃到答案中间缺乏逻辑推导过程。对于简单问题这或许可行但对于复杂问题这种方式往往失效。思维链是一种引导模型展示其推理过程的技术——在给出最终答案之前将问题分解为明确的中间步骤。不再是问题 → 答案而是问题 → 步骤一 → 步骤二 → 步骤三 → 答案思维链的适用场景• 数学推理与计算• 多步逻辑演绎• 规划与约束满足• 任何一步到位的猜测容易出错的复杂问题变体形式• 思维树——同时探索多条推理路径• 思维图——允许步骤之间进行非线性推理核心思想模型当问题需要结构化处理时不要强迫模型进行直接跳跃。让模型沿着路径思考而非仅仅猜测终点。擅长此道的模型正越来越多地被冠以“推理模型”的称号——这一类别正迅速成为 AI 工程领域的核心。第四层系统个体模型如何转化为实用产品检索增强生成 (RAG)几乎所有初涉 AI 构建的开发者都会犯一个错误他们期望模型能够“直接知晓”其内部信息。但事实并非如此。模型基于公开数据训练其知识截止于某个时间点。它不了解你的产品文档、内部政策、客户历史、专有流程以及训练结束后发生的任何事情。RAG 正是解决此问题的架构。它并非寄希望于模型已经掌握信息而是在查询时检索相关信息并将其注入到提示中。RAG 工作流程用户查询 ↓从知识库中检索相关文档 ↓将检索到的上下文注入提示 ↓模型基于查询和检索到的信息进行回答RAG 的实际运作方式• 系统根据查询检索相关文档• 将检索到的上下文与问题一同提供给大语言模型• 将模型输出锚定在当前的、事实性的、特定领域的信息之上核心思想模型不要强迫模型记住一切。构建一个知道如何在正确时刻获取正确信息的系统。这更接近稳健工程的工作原理。关注点分离。为特定任务选择正确的工具。向量数据库RAG 需要检索文档。但它如何知道哪些文档是相关的呢答案就是向量数据库。文档被转换为向量嵌入并存储在一个专为语义相似性搜索优化的数据库中。当查询到来时它同样被嵌入为向量。数据库会找出其向量与查询向量距离最近的已存储文档——即语义上最相似的文档。为何关键词搜索不够用• 关于“沮丧的客户”的查询应能检索到关于“高流失率”和“低满意度评分”的文档• 传统的关键词搜索无法做到这一点——因为它们不共享相同的词汇• 向量搜索可以做到——它们在向量空间中共享语义向量数据库的重要性• 即使关键词不同也能找到语义相关的文档• 通过快速获取相关上下文来支持 RAG• 使用如 HNSW 等算法进行快速的近似最近邻搜索核心思想模型向量数据库让你能够按语义而非文本重叠进行搜索。它们是智能 RAG 系统背后的检索引擎。当前流行的选择包括Pinecone、Weaviate、Qdrant、Chroma、pgvector。模型上下文协议 (MCP)一个能回答问题的模型是有用的。但一个能使用工具的模型则属于完全不同的类别。模型上下文协议 (MCP) 是一种标准化协议它允许模型在推理过程中动态地与外部系统进行交互。模型不再仅仅是生成文本它还可以• 查询实时数据库• 调用第三方 API• 触发外部工作流• 获取实时信息• 与你定义的工具进行交互MCP 的实际应用• 当大语言模型需要外部数据时MCP 客户端会检测到这一需求• 查询 MCP 服务器例如航空公司数据库、支付 API• 将这些实时数据整合到模型的响应中核心思想模型没有工具大语言模型只是一个“空谈者”。有了工具它就变成了一个“执行者”。这才是产品真正获得杠杆效应的起点。上下文工程大多数教程都忽略了一个关键区别提示工程是编写一条好的消息。而上下文工程是设计模型进行思考的整个信息环境。提示工程优化的是• 单条提示的措辞和结构• 指令、约束和格式• 示例和输出风格上下文工程管理的是• 跨越多次交互的对话历史• 用户偏好和个性化设置• 检索到的文档和记忆注入• 随时间更新的系统指令• 为适应 Token 限制而对旧上下文进行摘要上下文工程中的技术• 使用滑动窗口处理最近的对话历史• 在将旧聊天记录传递给主大语言模型之前先用一个较小的模型进行摘要• 将长期记忆动态注入到当前上下文中• 根据用户行为模式更新系统提示核心思想模型提示工程关乎单条消息。上下文工程关乎整个对话——以及模型为保持对话连贯性所需了解的一切。对于拥有真实用户且用户会持续回归的真实产品而言上下文工程远比提示工程重要。智能体智能体并非仅仅是名字更花哨的聊天机器人。智能体是一个能够长期运行的系统它可以• 对多步骤任务进行推理• 查询大语言模型和外部 API• 跟踪进度并调整计划• 从失败中恢复• 通常无需人工介入即可行动一个真实的智能体示例——旅行预订读取你关于即将召开的会议的邮件识别目的地、日期和约束条件查询航班和酒店 API与你存储的偏好进行比较预订最优组合发送确认信息并添加到你的日历这不再是文本生成。这是编排与协调。智能体对工程师的要求• 记忆系统短期和长期• 工具调用和 API 集成• 在不确定性下进行规划和重新规划• 错误处理和重试逻辑• 权限和监控核心思想模型智能体是模型从工具转变为队友的节点。但前提是你必须正确地围绕它构建系统。第五层部署让模型在经济上可行在物理上可用基础模型 vs. 小型语言模型 (SLM)并非所有问题都需要一个 3000 亿参数的模型。基础模型庞大且通用• 拥有数十亿到数千亿的参数• 涵盖多个领域的广泛知识• 大规模运行成本高昂• 例如GPT-4o、Claude 3、Gemini Ultra小型语言模型则专注且高效• 拥有数百万到数十亿的参数• 针对特定领域或任务进行优化• 推理速度更快托管成本更低• 更易于部署在边缘设备或资源受限的系统上小型语言模型的优势场景• 你的领域特定且狭窄• 延迟和成本比通用知识的广度更重要• 你正在移动设备、边缘或嵌入式系统上进行部署小型语言模型的应用案例• 特定领域的专业知识例如客户服务、医疗分诊• 更快的推理速度和更低的托管成本• 用于机器人或物联网的边缘部署核心思想模型基础模型探索可能性。小型模型则在需要运行的地方高效地交付成果。知识蒸馏那么如何制造一个性能依然良好的小型模型呢答案是知识蒸馏。一个大型模型充当“教师”。一个较小的模型充当“学生”。学生不仅从原始数据中学习。它还学习模仿教师的输出分布——即教师为每个可能的下一 Token 分配的概率。这实现了从昂贵模型到经济模型的能力迁移。知识蒸馏过程• 教师和学生处理相同的输入• 学生调整权重以模仿教师的输出分布• 结果一个保留了教师大部分性能的较小模型核心思想模型知识蒸馏是知识的压缩。将一个知识渊博的模型压缩成一个更快、更经济的思考者。这是当前 AI 工程领域最具实际重要性的技术之一。模型量化训练一次模型成本高昂。每天以规模化的方式服务数千次其成本会成倍放大。量化是在训练后降低模型权重的数值精度• 32 位浮点数 → 8 位整数• 有时甚至更低4 位、2 位这可以节省• 内存占用• 带宽• 推理延迟• 每次查询的硬件成本重要区别• 量化不会降低训练成本• 它在训练后应用以优化部署• 工程挑战在于在质量出现明显下降之前可以移除多少精度## 量化Quantization的影响• 显著降低内存占用与计算开销• 是在资源受限硬件上部署大模型的关键手段• 必须在压缩程度与精度损失之间寻求平衡核心认知模型量化决定了模型是停留在理论层面的惊艳还是能在生产环境中以经济可行的方式大规模运行。对于交付实际系统的工程师而言这直接关系到你的单位经济模型。多模态模型Multimodal Models多数人仍将人工智能局限于“文本输入、文本输出”的范式。这一时代已然落幕。多模态模型能够跨多种数据类型进行处理与生成• 文本Text• 图像Images• 音频Audio• 视频Video• 日益扩展的领域结构化表格、代码、传感器数据一个模型若能同时完成以下任务——读取图表、统计照片中的物体数量、描述视频帧、解读示意图、并根据文本描述生成视觉内容——这便是一种根本性的能力跃迁。为何这对从事机器人技术的AI工程师至关重要• 物理世界并非仅由文本构成• 具身智能系统Embodied AI需要感知与行动而非仅仅读写• 多模态能力是连接语言智能与物理智能的桥梁多模态AI的深远意义• 催生了横跨媒体、机器人技术与感知领域的新型应用类别• 在涉及视觉或音频上下文的任务中其表现通常优于纯文本模型• 是任何需要理解真实世界的系统不可或缺的基础核心认知模型纯文本模型在词语中思考。多模态模型则感知世界。这是两种截然不同的能力范畴——而后者正是物理人工智能最核心的所在。技术栈的整合The Stack, Assembled上述20个术语并非随意罗列。它们共同构成一个自洽的系统。表示层REPRESENTATION LAYER 分词化Tokenization → 向量Vectors → 注意力机制Attention 文本如何转化为可计算的形式学习层LEARNING LAYER 自监督学习Self-Supervised Learning → 变换器架构Transformer Architecture 模型如何从互联网规模的数据中获取能力适配层ADAPTATION LAYER 微调Fine-Tuning → 基于人类反馈的强化学习RLHF → 少样本提示Few-Shot Prompting → 思维链Chain of Thought 如何针对特定行为塑造模型能力系统层SYSTEM LAYER 检索增强生成RAG → 向量数据库Vector Databases → 模型上下文协议MCP → 上下文工程Context Engineering → 智能体Agents 如何将单个模型转化为实用的产品部署层DEPLOYMENT LAYER 基础模型 vs 小型语言模型Foundation Models vs SLMs → 蒸馏Distillation → 量化Quantization → 多模态Multimodal 如何使产品在经济上可行且具备物理能力一旦看清这个技术栈那些流行术语便不再显得杂乱无章。每个术语都有其归属每个归属都有其存在的理由。真正值得关注的问题理解这些术语并非终点。构建更优的系统才是。这些概念能引导你提出更有价值的问题• 当前用例需要基础模型还是蒸馏后的小型语言模型SLM更合适• 瓶颈在于模型本身还是围绕模型构建的上下文系统• 需要微调还是检索增强生成RAG配合少样本提示Few-Shot Prompting就已足够• 应该设计成聊天机器人、工具调用助手还是完全自主的智能体Agent• 在此压缩级别下量化Quantization是否会严重损害质量还是说这种权衡可以接受• 我是否在需要上下文工程Context Engineering时却误用了提示工程Prompt Engineering• 这个智能体是否需要记忆——如果需要是短期记忆还是长期记忆这些是构建者的问题而非营销者的问题。常见问题解答变换器Transformer与大语言模型LLM有何区别变换器是一种特定的神经网络架构。大语言模型则是基于该架构构建的产物——通过大规模训练来预测下一个词元Token。变换器是引擎大语言模型是整车。为何分词化Tokenization对AI模型如此重要分词化决定了模型如何“看待”你的文本。它能捕捉到简单分词所遗漏的形态学细微差别直接影响API成本和上下文窗口的使用效率并塑造模型学习语言模式的效率。基于人类反馈的强化学习RLHF如何改进AI模型RLHF利用人类偏好信号来奖励理想输出、惩罚不良输出。经过多次迭代模型学会生成与人类真实期望相符的响应——而不仅仅是统计上最可能的结果。向量数据库Vector Database在AI系统中扮演什么角色向量数据库实现了语义相似性搜索——即找到与查询在意义上相关、但关键词可能不完全匹配的文档。它是使检索增强生成RAG系统有效运作的检索引擎。何时应使用微调Fine-Tuning何时应使用少样本提示Few-Shot Prompting当需要在推理时进行快速、低成本的行为调整时使用少样本提示。当需要深度的领域专业化、一致的风格或仅靠少样本示例无法稳定产生所需行为时则应使用微调。提示工程Prompt Engineering与上下文工程Context Engineering有何区别提示工程优化的是单次交互中的单个提示。上下文工程则管理整个扩展对话中的信息环境——包括历史记录、记忆、检索到的文档、偏好设置以及随时间变化的系统状态。​最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​