一张图拆成256个patchTransformer算到冒烟背景区域纯属浪费。本文提出GridS可微网格采样主动预测K个连续坐标 双线性插值token数砍到16甚至1FLOPs降76%真实机器人堆叠积木成功率从7.6%飙到60%OOD场景下38.1%。代码已开源附LIBERO-PLUS全难度评测。代码https://github.com/Fediory/Grid-Sampler网页/demoGrid Sampler — ICML 2026论文[2605.11817] See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model作者/单位Yixu Feng1, Zinan Zhao2, Yanxiang Ma1, Chenghao Xia3, Chengbin Du3, Yunke Wang1, Chang Xu11 University of Sydney · 2 City University of Hong Kong · 3 StellarEdge Robotics1. 痛点VLA模型为啥跑不动目前主流VLAVision-Language-Action模型如π0、SmolVLA、OpenVLA处理图像的方式基本沿用ViT把224×224的图切成16×16的patch → 256个视觉token。下游Transformer的复杂度是O(N²)256²65536再乘层数、batch、多视角……推理延迟感人。更关键的是大部分token来自背景、桌面、阴影跟当前任务比如“抓住绿色方块”毫无关系。之前有人做token剪枝要么按语义重要性丢掉patchFastV、SparseVLM要么用启发式规则动态保留。但这些方法有两个致命伤离散选择 固定网格抓取点落在两个patch之间时只能选左边或右边 → 量化误差精细操作必崩。训练时不可微剪枝策略没法通过任务loss学习效果掉得厉害LIBERO上-1.5%~-4.6%。2. 我们的方案GridSDifferentiable Grid Sampler核心思想不丢patch而是主动预测连续坐标然后双线性采样。2.1 整体流程附伪代码级解释密集特征提取预训练ViT可冻结输入图像 I ∈ R^(3×H_R×W_R) → 特征图 T_dense ∈ R^(H×W×C)比如16×16×768全局坐标预测对T_dense做全局平均池化 → 上下文向量 z ∈ R^C轻量MLP Sigmoid → 预测K个归一化坐标 P ∈ [0,1]^(K×2)K H×W可微双线性采样核心创新对每个坐标 (x,y)找到四个最近邻网格点按距离加权求和# 伪代码 x1, y1 floor(x), floor(y) dx, dy x - x1, y - y1 w1 (1-dx)*(1-dy); w2 dx*(1-dy) w3 (1-dx)*dy; w4 dx*dy F_sampled w1*F[x1,y1] w2*F[x11,y1] w3*F[x1,y11] w4*F[x11,y11]这个操作对坐标(x,y)完全可微 → 梯度可以从任务loss流回MLP让模型自动学会把采样点挪到“最有价值”的位置。几何信息注入将坐标P编码成位置编码加到采样特征上 → 得到最终稀疏token T_spa ∈ R^(K×C)再与language tokens、action tokens拼接送入下游Transformer。2.2 与现有方法的本质区别方法选择方式精度是否可微OOD鲁棒性FastV / SparseVLM离散patch丢弃格点级❌差VLA-Cache离散缓存更新格点级❌差GridS (Ours)连续坐标双线性采样亚像素级✅强3. 实验结果模拟 真实机器人全刷榜3.1 LIBERO模拟π0基座配置Visual TokensFLOPs (G)平均成功率Baseline256216.094.4%π0 FastV†100143.592.9% (-1.5)π0 SparseVLM†100150.389.8% (-4.6)π0 GridS1651.696.0% (1.6)π0 GridS443.695.5% (1.1)FLOPs降低76%训练速度batch128提升3.4倍长序列任务Long从85.6% → 90.2%证明GridS有效减少误差累积完整结果如下3.2 ALOHA双机械臂精细插入方法Tokens插入(人类示教)成功率π0 Baseline25656.7%π0 GridS1664.2% (7.5)3.3 真实机器人SO100堆叠积木最炸裂的结果任务绿色方块叠到蓝色方块上需要精准对准适时放手基线SmolVLA64 tokens成功率仅7.6%几乎每次都失败GridS16 tokens成功率60.0%绝对提升52.4%同时执行时间减少3.3秒OOD场景21种换背景/加干扰物/移动物体位置/改变光照基线0%GridS38.1%这意味着GridS不是死记硬背训练轨迹而是真正学到了“几何交互”的因果结构。完整结果如下3.4 LIBERO-PLUSOOD测试LIBERO-PLUS包含7种扰动相机视角、光照颜色/方向、背景纹理、物体布局、传感器噪声、机器人初始关节、语言指令改写。我们测试了π0.5 GridSK32 vs 基线256 tokens扰动维度基线GridSΔ相机视角 (Spatial)67.0%86.4%19.4%光照条件 (Goal)85.7%97.8%12.1%传感器噪声 (LIBERO-10)78.4%84.0%5.6%难度Level-5 (最困难)52.6%56.0%3.4%而现有离散剪枝方法在LIBERO-PLUS上崩溃超过20%。GridS牺牲不到3%的平均成功率87.5%压缩率换来了视觉OOD下的大幅反超。3.5 附录里的“疯子实验”单token用π0.5 GridSK199.6% token被砍掉。基线256 tokens平均成功率96.7% →GridS单token 96.6%几乎没掉。这说明VLA模型中存在巨大的信息冗余真正需要的只是一个“最小充分统计量”。4. 消融实验与关键发现4.1 K值选择真实机器人堆叠K成功率分析40%信息瓶颈几何分辨率不足828.5%部分恢复1660.0%最优3219.0%引入过多背景噪声Baseline(64)7.6%噪声淹没信号呈现倒U型 → 适当的压缩可以滤除干扰过度压缩或不足都不行。4.2 其他组件验证随机采样K16成功率87.8%vs GridS 96.0%→ “采哪儿”非常关键Top-K按激活值剪枝90.5%仍不如GridS用SAM引导采样掉6.2% → 语义分割 ≠ 任务驱动几何采样去掉坐标编码掉3.6% → 连续采样破坏了空间结构必须显式注入坐标5. 局限性 未来工作单batch推理加速不明显~1.2x因为JAX编译已经把基线优化得很极致瓶颈移到kernel launch。但大batch128下3.2倍加速训练时3.4倍加速对服务器端/集群很友好。需要全参数微调用LoRA会掉8.3%因为GridS彻底改变了token分布低秩适应不足以对齐注意力。未来需要设计PEFT友好版本。K值是固定的当前手动设定无法根据场景复杂度动态调整。可以扩展为预测每个样本的K是一个有趣的方向。6. 代码 使用建议集成方式作为plug-and-play模块插在ViT编码器和下游Transformer之间。推荐配置全参数微调或至少解冻部分层K16作为起点平衡精度与速度输入分辨率保持原样GridS会在特征图上采样7. 总结GridS的核心贡献不是“又一种剪枝”而是重新定义了VLA的视觉感知范式从“被动保留重要patch”转向“主动采样最小充分统计量”。它证明了机器人任务不需要全图细节只需要几何关键点适当的信息丢失0.8~0.9保留率反而提升OOD泛化可微连续采样彻底摆脱了固定网格的量化误差如果你也在做具身智能、机器人学习、模型压缩强烈推荐试一下GridS。代码干净效果暴力欢迎提issue和PR。