欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年4月26日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录GPT1的训练GPT1的微调GPT2Zero-shotTOP-KTOP-P温度GPT3GPT1的训练GPT 模型的核心结构基于解码器Decoder 构建其简化设计中移除了传统解码器中的一个多头注意力层仅保留了单个完整的解码器层聚焦于文本生成任务兼顾效率与生成效果。在文本生成过程中GPT 采用自回归生成机制具体流程如下首先我们向 GPT 输入一个特殊标记SOS即 Start of Sentence中文意为 “句子开始”该标记的核心作用是明确告知模型“需要开始生成文本了”。此时模型仅以 SOS 作为输入通过自身的解码器层进行预测输出第一个单词例如 the。生成第一个单词后模型并不会丢弃之前的输入信息 —— 而是将初始输入的SOS 与刚刚生成的单词 the结合共同作为新的输入再次传入GPT。模型基于这两个输入的语义关联预测出下一个单词例如 weather。后续的生成过程以此类推每次生成新的单词后都会将所有历史输入包括 SOS 和之前生成的全部单词 整合起来作为下一次预测的输入持续生成下一个符合上下文逻辑的单词。这个循环会一直进行直到生成的文本长度达到预设的目标长度或者模型输出特殊结束标记 EOS即 End of Sentence中文意为 “句子结束”整个文本生成过程才算完成。在 GPT 的预训练阶段假设一段完整句子由若干单词依次组成分别记作 U1​,U2​…Un​。论文中的核心条件概率公式描述的就是自回归预测的计算逻辑。举个例子当模型需要预测并生成第四个单词good时本质是计算一个条件概率在前面所有已生成单词的上下文条件下下一个单词恰好为good的出现概率。公式中统一代表模型的全部可学习参数。预训练的核心目标就是最大化整句话的联合条件概率通过反向传播不断迭代、更新并优化模型所有参数缩小预测值与真实文本的差距。除此之外模型还会设置上下文窗口大小 k用来限制单次预测能参考的前文长度。例如 k3时模型在预测下一个单词时最多只能看到前方 3 个单词避免过长上下文带来的计算负担同时约束语义依赖范围。GPT 的预训练流程整体与 Transformer 解码器的运算逻辑保持一致。第一行中大写的U代表输入的整段文本序列。首先将输入单词序列U与词嵌入矩阵相乘得到词嵌入向量再叠加位置嵌入信息从而同时融合单词语义与位置顺序特征。第二行公式表示层级之间的传递关系将上一层解码器的输出结果作为下一层解码器的输入逐层完成特征提取与上下文建模。最后一行代表最终的预测环节将解码器输出的最终隐藏特征hn​与词嵌入矩阵的转置进行矩阵运算映射至词表维度得到每个单词的原始得分。随后经过 Softmax 函数归一化换算为每个单词的预测概率。最终模型选取概率值最大的单词作为当前时刻的输出结果完成逐词自回归预测。GPT1的微调GPT1的微调任务也分成4种。分类蕴含相似度计算和多选。分类一段文字 → 打标签蕴含两句话 → 判断逻辑蕴含 / 矛盾 / 中性相似度两句话 → 判断意思像不像多选题干 选项 → 选出正确答案。GPT2Zero-shotGPT-2 在 GPT-1 的基础上主要做了两处核心升级一是堆叠更多解码器层加深模型网络深度二是采用规模更大、质量更高的 WebText 海量语料数据集进行预训练。同时GPT-2 探索并验证了更加通用的迁移学习范式首次证明大尺度预训练语言模型可以实现零样本Zero-shot泛化。在不修改模型参数、不调整网络结构、不进行下游任务微调的前提下仅依靠预训练习得的通用语言能力直接完成各类下游任务。简单来说Zero-shot 能力的核心原理就是当下广泛使用的提示词Prompt机制。只需向模型输入一段引导性提示文本模型便能理解指令意图依据前文语境与提示信息自主生成符合任务需求的内容无需额外训练即可适配多种场景。TOP-KTOP-P在文本续写任务中例如补全句子后半段内容如散步、骑车、看夕阳等场景单纯选择概率最高的词语容易导致生成内容单调、重复、缺乏多样性。为了解决这一问题模型引入了Top-K与Top-P两种采样参数用来提升文本生成的丰富度与自然度。原本的 GPT 生成单词时会直接选取全局概率最高的词汇作为输出生成方式过于固定。Top-K采样人为设定一个固定数值例如将 K 设置为 5。模型会筛选出当前概率排名前五的单词将其余所有单词的概率直接置为 0只保留这五个候选词。随后对筛选后的概率重新归一化再在限定范围内采样选词避免出现过于冷门、不通顺的词汇。Top-P 采样也叫核采样会设定一个累计概率阈值例如设置为 95%。模型先将全部词汇按照概率从高到低排序从前到后依次累加概率直到累计总和达到并超过 95% 时停止筛选。被纳入累加区间的词汇即为当前合法候选词集合。最后同样对该区间内的概率进行归一化再从中采样生成下一个单词。简单来说Top-K 固定选取前 K 个候选词Top-P 按照累计概率动态筛选候选词两者配合使用既能保证语句通顺合理又能有效增加文本的多样性避免生成内容呆板重复。温度在文本生成过程中模型经过全连接层输出每个候选单词的原始逻辑得分再将得分送入 Softmax函数转化为各个单词的预测概率。而温度Temperature 是调节生成随机性的超参数原理是在 Softmax 计算中新增温度系数作为分母对原始得分进行缩放。当温度小于 1 时原始得分差距被放大概率分布更加集中模型更倾向选择高概率词汇生成内容更连贯、保守、确定性更强当温度大于 1 时得分差距被缩小概率分布更加平缓低概率单词也有机会被选中生成内容更多样、更有创意但容易出现逻辑混乱。GPT 在使用温度、Top-K、Top-P这三个生成控制参数时存在先后执行顺序三者不会同时随意调整。通常不会同步改动 Top-K 与 Top-P 两项参数防止两者作用相互冲突、抵消或过度叠加。不同参数各有筛选逻辑若同时大幅调整会造成概率分布紊乱让生成效果难以控制出现语句不通顺、逻辑混乱或风格失控的问题。因此在实际使用中一般只单独调节其中一项参数保证生成结果稳定可控。GPT3在几十个自然语言处理数据集上对GPT-3进行了评估包括三种设置1零样本学习Zero-shot Learning不允许展示具体的任务样本只告知模型自然语言表示的指令2单样本学习One-shot Learning只允许向模型展示一个样本3小样本学习Few-shot Learning允许尽可能多的向模型展示样本大概在10-100个之间【1】参考大白话讲明白GPT、GPT2、GPT3 #GPT #GPT2 #知识前沿派对 #AI新星计划 #申请加入抖音计算科学顶流班 - 抖音