VibeThinker-3B，为什么敢和前沿推理模型同场比拼

张

张建站

2026/6/28 19:22:42

10分钟阅读

今天大家聊模型常常默认“更大才更强”而 VibeThinker-3B则试图给出另一条路线——有些能力也许不是靠一味堆参数而是靠更精准的训练把推理这件事压缩进一个更小、更紧凑的核心里。提出了一个很有传播性的判断可验证推理更像一种可压缩能力广泛知识覆盖才更依赖大参数规模。小模型也能冲前排如果只看参数量VibeThinker-3B并不起眼。它只有30亿参数属于标准意义上的“小模型”但它最有话题性的地方恰恰在于它想回答一个反常识的问题小模型是不是只能做“大模型的便宜替代品”还是也能在某些关键任务上打到第一梯队。它被定义为一款专门探索“小模型可验证推理边界”的 dense reasoning model并不是为了通用聊天而来而是为了在数学、代码、STEM 等“有明确检验标准”的任务上把推理密度尽量做高。微博AI在仓库中于2026年6月中旬公布了3B版本核心叙事很清楚不是证明小模型能取代大模型而是证明在“答案能验”的场景里小模型可能远比外界想象得更强。它最会的是把题做对VibeThinker-3B最强的地方不是“陪你聊天”而是“把题做对”。公开指标非常醒目AIME26达到 94.3引入CLR之后升到97.1LiveCodeBench v6 为 80.2最近未见过的LeetCode周赛与双周赛总体通过率达到96.1%同时IFEval为93.4说明它在强化推理之后基本没有把“听懂并照做”这件事丢掉。换句话说它不是单点爆发而是在数学、代码、指令遵循三个方向一起拉高了表现。更重要的是这些分数背后的任务类型非常统一都属于“能验算、能执行、能对错分明”的问题。对普通读者来说可以把它理解成一种更像“解题型选手”而不是“百科型选手”的模型。它特别适合下面这些场景数学题解析、竞赛题推导、需要一步步得到确定答案的问题算法题、竞赛编程、能通过测试样例验证对错的代码任务有明确标准答案的 STEM 推理题需要严格遵守格式和约束条件的指令型任务成绩背后不是堆参数VibeThinker-3B 的亮点不只是“分数高”还在于它把“小模型怎么练”这件事讲得很完整。它基于 Qwen2.5-Coder-3B再通过升级版 Spectrum-to-Signal 思路做后训练先让模型接触足够广的题型和多种解法再把那些真正有效的推理路径不断强化、蒸馏、收拢回来。翻成更通俗的话就是先“广撒网”再“啃硬骨头”最后把真正走得通的路固化在模型里。这个流程大致分四步先做两阶段的课程式微调第一阶段尽量把数学、代码、STEM、通用对话和指令跟随都覆盖住第二阶段再专挑更难、更长链条的问题接着做多领域强化学习把数学、代码、STEM 一路推进然后用离线自蒸馏把不同阶段学到的强项重新合并最后再做Instruct RL让模型在面对复杂要求时更稳、更听指令。最值得记住的一句就是它不是靠参数变大而是靠训练更聪明。能火但别用错地方VibeThinker-3B很强但它的边界同样清楚。在 GPQA-Diamond 这类更偏知识密集型的评测上它和超大模型仍有明显差距它没有针对 tool-calling、agent-based programming、API orchestration这类数据训练因此并不推荐直接拿去做函数调用、自动化编排或自主 Coding Agent。也就是说它最适合当“高密度解题选手”不适合被神化成“全能生产力中枢”。使用时尤其要记住这几点适合做题、写算法、推公式不适合拿来当全能知识顾问适合有明确对错标准的任务不适合模糊开放、强知识覆盖的长尾问答不建议直接承担函数调用、API 编排、自主 Agent 这类任务如果你要展示它的真实价值最好用数学、代码和竞赛题结果说话但也正因为边界清晰它反而更容易建立鲜明定位。最近LeetCode周赛和双周赛 96.1% 的总体通过率就说明它不是只会“刷 benchmark”而是在新题、实战、执行可验证的问题上也能打。结语VibeThinker-3B最重要的是它用一组很难忽视的公开成绩把“小模型只能妥协”的旧印象往前推了一步。它证明了一件事在数学、代码、可验证推理这些任务上决定上限的未必只有参数规模训练方法和验证机制同样可以把小模型送进高段位。如果你关注AI模型的新趋势VibeThinker-3B 值得看因为它讲的不是“更大”而是“更准”也许下一轮真正有意思的竞争不只发生在万亿参数之间。社区地址OpenCSG社区https://opencsg.com/models/AIWizards/VibeThinker-3BHugging Face社区https://huggingface.co/WeiboAI/VibeThinker-3B关于OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品CSGHub提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

Pikachu靶场实战：POST请求下的反射型XSS攻防剖析

1. 从零认识POST型反射XSS漏洞第一次接触POST请求的反射型XSS时，我和大多数初学者一样困惑：为什么在URL里看不到注入的代码？这得从HTTP基础说起。GET请求的参数会显示在地址栏，像超市购物清单一样一目了然；而POST请求…...

2026/6/28 19:21:32 阅读更多 →

企业级个性化图书推荐系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

💡实话实说：CSDN上做毕设辅导的都是专业技术服务，大家都要生活，这个很正常。我和其他人不同的是，我有自己的项目库存，不需要找别人拿货再加价。我就是个在校研究生，兼职赚点饭钱贴补生活费&…...

2026/6/28 19:20:12 阅读更多 →

ResNet-18架构解析：从残差块到网络构建

1. 残差块：ResNet-18的核心设计思想我第一次接触ResNet-18时，最让我困惑的就是这个"残差块"的概念。为什么要在卷积层之间加一条"捷径"？后来在实际项目中调试网络时才发现，这正是解决深度神经网络退化问题的…...

2026/6/28 19:19:32 阅读更多 →

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解棋牌室、茶楼老板选收银机，常见问题不是“能不能收钱”，而是开台计时别算错、会员储值别记混、团购核销别卡住、茶水小食别漏单，营业结束后还能把账看清楚。…...

2026/6/28 1:01:39 阅读更多 →

Claude 桌面版深度使用技巧指南

一、文件分析的高阶技巧1. 截图与设计稿的精确提问法不要只丢一张图说“帮我看看”。带指令地上传效果倍增：像素级评审：“以 iOS 设计规范为标准，检查这张截图的间距、字号和颜色一致性，标出具体坐标。”信息提取：“把…...

2026/6/28 1:06:56 阅读更多 →

【Claude】Request timed out 请求超时报错已解决

【Claude】Request timed out 请求超时报错已解决关键词：Claude Code、Request timed out、API_TIMEOUT_MS、请求超时、网络代理、自动重试、Waiting for API response一、问题现象：一行干巴巴的超时 Claude Code 干着干着，终端冒出极简的一行…...

2026/6/28 1:12:42 阅读更多 →