标题COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts来源arXiv, 2604.27389v1️文章简介研究问题多模态大语言模型在真实场景中如何准确识别交错图文上下文中细粒度的图文对应关系并进行推理主要贡献论文提出了COHERENCE基准这是首个专门评估交错图文上下文中细粒度图文对齐能力的大规模评测基准。重点思路构建包含四个代表性领域WikiHow、StoryBird、Cooking、Science的交错图文数据集共6161个高质量样本设计两种对齐能力评估指标全局图文对齐精确匹配测试模型对整体交错上下文结构的把握局部图文对齐部分匹配测试细粒度图文引用解析能力提出六类错误分析框架包括全局分配漂移、步骤状态混淆、细粒度细节遗漏、语义过度解读、视觉幻觉和指令违反扩展评估设置引入额外候选图像测试模型区分相关与无关图像的能力 系统评估开源和闭源模型对比模块化架构与原生联合训练架构的性能差异分析总结小模型在局部图文对齐上已表现较强但全局对齐能力随模型规模增长显著提升是涌现能力原生从头联合训练的MLLM在复杂上下文图文对齐任务上普遍优于LLaVA式模块化架构最强开源模型Qwen3.5-397B得分为64.81与闭源模型Gemini-3.1-Pro的71.82仍存在明显差距模型规模扩大对局部对齐能力提升有限如Qwen3.5从4B到397B仅提升7.21分但对全局一致性提升显著增加额外候选图像时大模型在排除无关干扰图像方面表现更好小模型易受干扰个人观点论文定义了交错图文理解中的细粒度对齐问题突破了传统单图或多图问答的评测局限。