打破算力垄断！仅用9小时Kaggle TPU！开源社区整大活：如何利用 Tunix 让 Gemma 学会深度“思考”？

张

张建站

2026/6/2 20:47:04

10分钟阅读

打破算力垄断！仅用9小时Kaggle TPU！开源社区整大活：如何利用 Tunix 让 Gemma 学会深度“思考”？

在大模型LLM领域让模型在回答前先进行“思考”即输出显式的思维链 Chain-of-Thought已经成为解决复杂推理任务的标配。像 Gemini 3 或开放权重的 Gemma 4 这样的前沿模型都具备了极强的推理轨迹生成能力。然而市面上虽然有很多关于数学、代码等“易验证任务”的推理训练教程但针对通用推理General Reasoning的、可复现的完整训练方案包含数据、策略、代码及评估却依旧凤毛麟角。为了打破这一僵局Google 在 Kaggle 上举办了一场名为“Google Tunix Hack: Train a model to show its work”的黑客马拉松。比赛要求开发者在极其有限的算力预算下仅使用一块 Kaggle TPU v5e-8 运行 9 小时将不具备推理能力的轻量化基础模型Gemma-2-2B 和 Gemma-3-1B改造为通用的推理模型。这场大赛吸引了超过 11,000 名选手参赛催生了 300 多个高质量方案。今天我们就来拆解前三名获胜团队的技术结晶看看开源社区是如何用小算力“调教”出低配版“思考模型”的。一、冠军方案G-RaR基于量规的强化学习核心思路结合监督微调SFT与 GRPO群体相对策略优化并引入创新的“LLM-as-judge大模型作为裁判”量规奖励系统。1. 推理能力的提升密码该方案通过显式训练让 Gemma 在输出最终答案之前必须在reasoning标签内“展示其思考过程”。传统的 GRPO 往往依赖“完全匹配Exact-Match”的准确率作为奖励但这很难应用于开放式、不可验证的任务。冠军团队提出了G-RaRRubrics as Rewards技术他们使用一个更大的裁判模型Gemma-3-12B根据特定任务的量规Rubrics来评估中间逻辑步骤的质量。通过将离散的量规得分转化为连续、归一化的奖励信号为模型的逻辑生成提供密集且平滑的反馈。2. 技术落地架构这是一个两阶段的后训练Post-training管线Stage 1 (SFT 预热)使用 LoRA 在约 3.3 万个样本的数据集上微调 Gemma-2-2B-IT让模型牢固掌握reasoning.../reasoninganswer.../answer的结构基础。Stage 2 (GRPO 精炼)基于复合奖励函数格式奖励精确答案奖励 G-RaR 量规得分进行强化学习。为了突破单卡算力瓶颈团队采用了网格切分Split-mesh架构将策略/参考模型与裁判模型分别放置在单块 TPU v5e-8 的不同切片上实现了真正的并行计算。二、亚军方案Pinocchio-1B三幕剧式推理引擎核心思路在 9 小时的 TPU 流水线内通过SFT → SimPO → GRPO三阶段进化将 1B 参数的超轻量模型训练成结构化推理引擎。1. 推理能力的提升密码让 1B 模型的行为从简单的“模式匹配”跃升为“逻辑推导”。通过 SFT 注入基础的思维链CoT能力引入 SimPO 锁死严格的 XML 格式防止模型通过无意义的拉长篇幅来“刷分”最后通过 GRPO 引入裁判模型奖励连贯性并严厉惩罚幻觉。2. 技术落地与 Tunix 扩展SFT 阶段使用 OSS-120B 教师模型和 Gemini 任务路由在 70k 提示词上进行知识蒸馏。SimPO 阶段由于 DPO直接偏好优化极其消耗内存团队采用了更轻量的 SimPO 代替以极高的效率强制执行严格的 XML 格式。GRPO 阶段引入 Gemini 2.0 Flash 作为异步裁判动态奖励准确性、逻辑性和格式。对 Tunix 的自定义改动该团队显式扩展了 Tunix 库首先将带有长度归一化Length Normalization的自定义 SimPO 损失函数注入到DPOTrainer中其次构建了一个高吞吐量的异步评估引擎用于实时处理 GRPO 的奖励信号。三、季军方案IDEA-E 蒸馏与课程引导的 GRPO 训练核心思路将结构化的“IDEA-E”伦理推理框架蒸馏至 2B 模型中并配合课程引导的 GRPO 以及超快的 TF-IDF 奖励系统。1. 推理能力的提升密码IDEA-E支架强制模型在回答前进行逐字逐句的逻辑推导有效防止了模型的“过早猜测”。同时为了避免传统 LLM 裁判带来的巨大延迟和算力开销团队引入了TF-IDF 奖励机制通过激励模型在推理轨迹中使用与上下文高度相关的词汇从根本上杜绝了无意义的废话Yapping。2. 技术落地与 Tunix 扩展SFT 阶段在教师数据上微调以确立 IDEA-E 的标准格式。GRPO 阶段采用课程引导Curriculum Guidance的强化学习并使用基于 CPU 的快速、非阻塞 TF-IDF 奖励函数替代了缓慢的 LLM 裁判。对 Tunix 的自定义改动团队成功将他们的自定义 TF-IDF 奖励函数集成到了 Tunix 的 GRPO 流水线中。四、垂直行业应用小模型也能精通专业领域除了通用的推理方案本次黑客松还涌现出了大量针对垂直行业的推理模型训练范式证明了小模型在经过 GRPO 训练后也能在专业场景下“有条不紊”地思考行业领域推理带来的核心改观医疗 (Medical)GRPO 引导模型生成结构化的临床问题思考轨迹大幅提升了复杂临床诊疗输出的可解释性与可靠性。化学 (Chemistry)步进式推理轨迹赋能小微语言模型使其能够顺利拆解并解决复杂的化学推导任务。法律 (Legal)通过 GRPO 强化结构化推导使 Gemma-3-1B 能够准确分析复杂的法律条文数据并产出逻辑严密的法律解释。机器人 (Robotics)步骤生成允许模型在单次会话训练的物理约束下完成多步骤的机器人动作规划与决策。五、总结Google Tunix 黑客松的成功举办标志着高水平结构化推理模型的训练正在走向平民化。你不再需要成百上千张高端显卡借助 Tunix 框架和 Kaggle 提供的免费 TPU 算力普通的个人开发者同样可以探索大模型后训练Post-training的硬核魅力。如果你也想训练一个属于自己的“会思考”的 AI 模型以下资源不容错过GitHub 开源库访问官方的Tunix仓库获取基础代码、详尽文档和社区优秀示例。Colab 零门槛体验开启一个免费的 Colab TPU 实例直接运行 Tunix 自带的示例来跑通你的第一个 SFT 或强化学习RL循环。深入强化学习阅读 Tunix 的 RL 官方文档掌握如何利用强化学习真正吃透模型的微调控流。最近魔芋ai平台推出的流行大模型的6折优惠包括Seedance2.0、GPT、Gemini、Claude等流行模型可供企业开发票使用。想AI创业的朋友们也可以来看看Raas100开发者招募海量资金扶持一站式赋能助力大家实现AI创业的想法。欢迎加入群聊了解更多。获取折扣福利加入开发者招募获取更多ai资讯。

从提示词工程到 AI 技能编排：零代码构建稳定可复用的 AI 工作流

摘要随着大模型应用普及，单纯依赖碎片化 Prompt 的使用模式逐渐暴露出输出不稳定、难以自动化、场景适配弱等问题。AI Skill（AI 技能） 作为将大模型能力流程化、标准化、模块化的落地形态，成为企业与个人搭建 AI 工作流的主流方…...

2026/6/1 10:29:18 阅读更多 →

BetterNCM终极指南：从零开始打造你的专属网易云音乐体验

BetterNCM终极指南：从零开始打造你的专属网易云音乐体验【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 想要让网易云音乐变得更好用吗？BetterNCM就是你的最佳选…...

2026/6/1 10:29:16 阅读更多 →

告别手动打标签！用Labelme快速搞定图像分类和目标检测数据集（附完整命令行参数详解）

告别手动打标签！用Labelme快速搞定图像分类和目标检测数据集（附完整命令行参数详解）在计算机视觉领域，数据标注往往是项目中最耗时却无法绕过的环节。无论是学术研究还是工业落地，标注质量直接决定模型性能上限。传统手…...

2026/6/1 1:55:08 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/6/2 10:07:16 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/2 10:07:52 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/2 10:07:56 阅读更多 →