在大模型LLM领域让模型在回答前先进行“思考”即输出显式的思维链 Chain-of-Thought已经成为解决复杂推理任务的标配。像 Gemini 3 或开放权重的 Gemma 4 这样的前沿模型都具备了极强的推理轨迹生成能力。然而市面上虽然有很多关于数学、代码等“易验证任务”的推理训练教程但针对通用推理General Reasoning的、可复现的完整训练方案包含数据、策略、代码及评估却依旧凤毛麟角。为了打破这一僵局Google 在 Kaggle 上举办了一场名为“Google Tunix Hack: Train a model to show its work”的黑客马拉松。比赛要求开发者在极其有限的算力预算下仅使用一块 Kaggle TPU v5e-8 运行 9 小时将不具备推理能力的轻量化基础模型Gemma-2-2B 和 Gemma-3-1B改造为通用的推理模型。这场大赛吸引了超过 11,000 名选手参赛催生了 300 多个高质量方案。今天我们就来拆解前三名获胜团队的技术结晶看看开源社区是如何用小算力“调教”出低配版“思考模型”的。一、 冠军方案G-RaR基于量规的强化学习核心思路结合监督微调SFT与 GRPO群体相对策略优化并引入创新的“LLM-as-judge大模型作为裁判”量规奖励系统。1. 推理能力的提升密码该方案通过显式训练让 Gemma 在输出最终答案之前必须在reasoning标签内“展示其思考过程”。传统的 GRPO 往往依赖“完全匹配Exact-Match”的准确率作为奖励但这很难应用于开放式、不可验证的任务。冠军团队提出了G-RaRRubrics as Rewards技术他们使用一个更大的裁判模型Gemma-3-12B根据特定任务的量规Rubrics来评估中间逻辑步骤的质量。通过将离散的量规得分转化为连续、归一化的奖励信号为模型的逻辑生成提供密集且平滑的反馈。2. 技术落地架构这是一个两阶段的后训练Post-training管线Stage 1 (SFT 预热)使用 LoRA 在约 3.3 万个样本的数据集上微调 Gemma-2-2B-IT让模型牢固掌握reasoning.../reasoninganswer.../answer的结构基础。Stage 2 (GRPO 精炼)基于复合奖励函数格式奖励 精确答案奖励 G-RaR 量规得分进行强化学习。为了突破单卡算力瓶颈团队采用了网格切分Split-mesh架构将策略/参考模型与裁判模型分别放置在单块 TPU v5e-8 的不同切片上实现了真正的并行计算。二、 亚军方案Pinocchio-1B三幕剧式推理引擎核心思路在 9 小时的 TPU 流水线内通过SFT → SimPO → GRPO三阶段进化将 1B 参数的超轻量模型训练成结构化推理引擎。1. 推理能力的提升密码让 1B 模型的行为从简单的“模式匹配”跃升为“逻辑推导”。通过 SFT 注入基础的思维链CoT能力引入 SimPO 锁死严格的 XML 格式防止模型通过无意义的拉长篇幅来“刷分”最后通过 GRPO 引入裁判模型奖励连贯性并严厉惩罚幻觉。2. 技术落地与 Tunix 扩展SFT 阶段使用 OSS-120B 教师模型和 Gemini 任务路由在 70k 提示词上进行知识蒸馏。SimPO 阶段由于 DPO直接偏好优化极其消耗内存团队采用了更轻量的 SimPO 代替以极高的效率强制执行严格的 XML 格式。GRPO 阶段引入 Gemini 2.0 Flash 作为异步裁判动态奖励准确性、逻辑性和格式。对 Tunix 的自定义改动该团队显式扩展了 Tunix 库首先将带有长度归一化Length Normalization的自定义 SimPO 损失函数注入到DPOTrainer中其次构建了一个高吞吐量的异步评估引擎用于实时处理 GRPO 的奖励信号。三、 季军方案IDEA-E 蒸馏与课程引导的 GRPO 训练核心思路将结构化的“IDEA-E”伦理推理框架蒸馏至 2B 模型中并配合课程引导的 GRPO 以及超快的 TF-IDF 奖励系统。1. 推理能力的提升密码IDEA-E支架强制模型在回答前进行逐字逐句的逻辑推导有效防止了模型的“过早猜测”。同时为了避免传统 LLM 裁判带来的巨大延迟和算力开销团队引入了TF-IDF 奖励机制通过激励模型在推理轨迹中使用与上下文高度相关的词汇从根本上杜绝了无意义的废话Yapping。2. 技术落地与 Tunix 扩展SFT 阶段在教师数据上微调以确立 IDEA-E 的标准格式。GRPO 阶段采用课程引导Curriculum Guidance的强化学习并使用基于 CPU 的快速、非阻塞 TF-IDF 奖励函数替代了缓慢的 LLM 裁判。对 Tunix 的自定义改动团队成功将他们的自定义 TF-IDF 奖励函数集成到了 Tunix 的 GRPO 流水线中。四、 垂直行业应用小模型也能精通专业领域除了通用的推理方案本次黑客松还涌现出了大量针对垂直行业的推理模型训练范式证明了小模型在经过 GRPO 训练后也能在专业场景下“有条不紊”地思考行业领域推理带来的核心改观医疗 (Medical)GRPO 引导模型生成结构化的临床问题思考轨迹大幅提升了复杂临床诊疗输出的可解释性与可靠性。化学 (Chemistry)步进式推理轨迹赋能小微语言模型使其能够顺利拆解并解决复杂的化学推导任务。法律 (Legal)通过 GRPO 强化结构化推导使 Gemma-3-1B 能够准确分析复杂的法律条文数据并产出逻辑严密的法律解释。机器人 (Robotics)步骤生成允许模型在单次会话训练的物理约束下完成多步骤的机器人动作规划与决策。五、 总结Google Tunix 黑客松的成功举办标志着高水平结构化推理模型的训练正在走向平民化。你不再需要成百上千张高端显卡借助 Tunix 框架和 Kaggle 提供的免费 TPU 算力普通的个人开发者同样可以探索大模型后训练Post-training的硬核魅力。如果你也想训练一个属于自己的“会思考”的 AI 模型以下资源不容错过GitHub 开源库访问官方的Tunix仓库获取基础代码、详尽文档和社区优秀示例。Colab 零门槛体验开启一个免费的 Colab TPU 实例直接运行 Tunix 自带的示例来跑通你的第一个 SFT 或强化学习RL循环。深入强化学习阅读 Tunix 的 RL 官方文档掌握如何利用强化学习真正吃透模型的微调控流。最近魔芋ai平台推出的流行大模型的6折优惠包括Seedance2.0、GPT、Gemini、Claude等流行模型可供企业开发票使用。想AI创业的朋友们也可以来看看Raas100开发者招募海量资金扶持一站式赋能助力大家实现AI创业的想法。欢迎加入群聊了解更多。获取折扣福利加入开发者招募获取更多ai资讯。