这项由浙江大学、西湖大学、蚂蚁集团等多家机构合作完成的研究发表于2026年3月论文编号为arXiv:2603.19217v1有兴趣深入了解的读者可以通过该编号查询完整论文。当我们人类观看一部电影时能够轻松地跟踪角色关系、理解剧情发展还能通过音乐和对话理解情感变化。但对于人工智能来说这个看似简单的任务却充满挑战特别是当视频长达数十分钟甚至更长时间的时候。现在的全能AI模型也就是能同时理解文字、图像、声音的AI系统在处理短视频方面已经相当出色但面对真实世界中常见的长视频内容——比如一场完整的讲座、一集电视剧或一个详细的教学视频——它们的表现就大打折扣了。就像一个人只能记住电影的前几分钟却无法理解整个故事的完整脉络一样。研究团队发现了一个令人惊讶的现象目前大多数AI评测都只关注10秒到5分钟的短视频片段这就像用短跑成绩来评判马拉松选手的耐力一样不合理。在现实应用中我们需要AI能够理解完整的视频内容而不仅仅是片段。为了解决这个问题研究团队创建了一个全新的评测基准——LVOmniBench专门用来测试AI模型在长时间音视频理解方面的能力。这个评测基准就像是为AI设计的视频理解马拉松。它包含275个高质量的长视频每个视频的时长从10分钟到90分钟不等平均长度超过34分钟。这些视频涵盖了生活方式、娱乐、烹饪、纪录片等21个不同类别确保了内容的丰富性和多样性。研究团队还精心设计了1014个问答题每个问题都需要AI同时理解视频中的画面和声音才能正确回答。在测试结果中研究团队发现了一个令人深思的现象即使是目前最先进的商业AI模型Gemini 3 Pro准确率也仅达到65.8%左右而开源模型的表现更是令人担忧大多数都在35%以下这个成绩接近随机猜测的水平。这就好比让一个学霸去考试结果只能答对一半多的题目说明这个考试确实具有相当的挑战性。一、构建史上最全面的长视频理解测试研究团队面临的第一个挑战就是如何收集到足够多样且高质量的长视频内容。他们选择从YouTube这个视频宝库中寻找素材但并非随意选择而是制定了严格的筛选标准。所有选中的视频都必须遵循创意共享协议这确保了这个数据集能够被研究社区自由使用。研究团队就像是在海量视频中寻找宝藏的探险家他们先是根据关键词在21个细分类别中进行初步筛选收集了超过3000个候选视频。接下来是更加严格的人工筛选过程。研究团队的专家们就像电影选片师一样逐一审查每个视频确保它们具备丰富的音视频信息和动态变化。最终只有275个视频通过了这个严格的选拔过程平均时长达到2069秒这个数字是现有音视频理解基准测试平均时长的6倍以上。这些精选视频的时长分布很有意思大部分集中在20到50分钟之间这正好符合现实生活中我们观看视频的典型时长。无论是一节网课、一期播客还是一个详细的产品评测都通常在这个时长范围内。二、设计巧妙的问答系统来测试AI理解能力仅仅有了长视频还不够研究团队需要设计出能够真正测试AI理解能力的问题。他们创建的问答系统就像是一套精心设计的智力测验涵盖了四个不同层面的认知能力。感知层面的问题就像是测试AI的眼睛和耳朵是否灵敏。比如询问视频中出现了多少个特定物体或者背景音乐是什么类型。这看似简单但当视频长达几十分钟时AI需要在整个时长内保持注意力就像人类观看电影时需要记住开头出现的角色一样。理解层面的问题更加复杂要求AI能够识别人物关系、情感变化和事件发展。例如AI需要通过观察一个人的表情和听取语调变化来判断他们的情绪状态或者理解视频中多个人物之间的互动关系。推理层面的问题则考验AI的思维能力。它需要根据听到的声音推断画面中正在发生什么或者根据时间线上的事件推测因果关系。这就像侦探通过蛛丝马迹推理案情一样需要将零散的音视频信息整合成完整的理解。最具挑战性的是逻辑推理层面的问题这些问题需要AI进行多步骤的复杂推理。比如AI可能需要先识别出视频中的某个特定场景然后结合之前的信息来回答一个涉及因果关系的问题。每个问题都被精心设计成多选题形式并且必须同时依赖音频和视频信息才能正确回答。研究团队还为每个问题标注了难度等级低、中、高三个层次这样就能更细致地分析AI在不同难度水平上的表现。为了确保问题的质量研究团队采用了多轮筛选机制。他们首先让Gemini模型尝试仅使用单一模态只看图像或只听音频来回答问题如果模型能够答对说明这个问题设计得还不够严谨需要重新修改。经过这样的筛选最终的1014个问题都必须同时依赖音视频信息才能解答。三、令人意外的测试结果揭示AI的真实水平当研究团队开始测试各种AI模型时结果令人既惊讶又深思。即使是被认为最先进的商业AI模型在面对长视频理解任务时也表现出了明显的局限性。Gemini 3 Pro作为目前最强的商业AI模型之一在这个测试中的准确率达到65.8%这个成绩虽然是所有模型中最高的但距离人类水平仍有不小差距。更令人担忧的是当问题难度提升到高等级时即使是Gemini 3 Pro的准确率也下降到了45%左右。开源AI模型的表现更是让人瞠目结舌。大部分开源模型的准确率都徘徊在35%以下考虑到这是四选一的多选题25%是纯粹随机猜测的概率这意味着许多开源模型的实际理解能力可能还不如随机选择。研究团队进一步分析发现AI模型在不同类型的问题上表现差异很大。在音乐感知和精确计数方面几乎所有模型都表现糟糕。这就像让一个人在嘈杂的环境中辨别特定的音乐类型或者在快速移动的画面中准确数出物体数量一样困难。特别有趣的是研究团队还测试了AI模型在处理不同类型音频时的表现。结果显示当涉及到语音内容时AI模型的表现相对较好但当需要理解音乐或环境声音时性能急剧下降。这说明现有的AI模型在音频理解方面还有很强的语言依赖性无法很好地处理非语言音频信息。四、深入剖析AI失败的根本原因为了更好地理解AI模型为什么在长视频理解上表现不佳研究团队深入分析了153个错误案例就像医生诊断病情一样仔细解剖每个失败的原因。感知错误占据了失误原因的最大比例达到34%。这些错误被进一步分为视觉感知错误和听觉感知错误。在视觉方面AI模型经常在数数、空间推理和细节识别上出错就像一个近视的人试图看清远处的标牌一样模糊不清。在听觉方面AI模型对于细微的音频特征如音色、情感语调等缺乏敏感性经常忽略这些对人类来说很明显的音频线索。时间定位错误占19.6%这反映了AI模型在长时间序列中定位特定事件的困难。想象一下如果有人问你一部90分钟电影中某个特定场景出现的时间你需要在脑海中快速检索整部电影的内容。对AI来说这个任务更加困难因为它需要同时处理大量的音视频信息并保持时间线的连贯性。跨模态语义鸿沟问题占19%这是一个特别有趣的现象。AI模型经常能够分别理解视频中的画面和声音但无法将两者有机结合起来。就像一个人能够分别看懂图画和听懂音乐却无法理解音画结合所表达的完整含义一样。推理错误占23.5%即使AI模型成功感知到了所有必要的信息也经常在逻辑推理环节出错。这包括数学计算错误、空间关系判断失误以及因果逻辑推理问题。五、探索解决方案和未来发展方向面对这些挑战研究团队也提出了一些有价值的解决方向。他们发现当为AI模型提供音频的文字转录时某些开源模型的表现有了显著提升。这就像给一个外国人提供翻译帮助能够更好地理解内容。但这也暴露了一个问题现有的AI模型可能过度依赖文字信息而无法真正理解原始的音频信号。研究团队还发现音频信息对于完整理解视频内容至关重要。当他们移除音频信息仅让AI处理视频画面时即使是专门为长视频理解优化的模型性能也大幅下降。这说明真正的音视频理解需要两种模态的深度融合而不是简单的拼接。在处理超长视频序列方面现有的技术解决方案主要集中在视频压缩和关键帧选择上但音频处理的优化方法相对较少。音频信号具有严格的时序连续性不像视频可以通过抽取关键帧来压缩信息。这为未来的技术发展指出了一个重要方向如何在保持音频信息完整性的同时提高处理效率。研究团队通过对比实验发现即使是最先进的商业AI模型在利用音频转录文本时表现也优于直接处理原始音频。这表明原始音频中包含的非语言信息如情感语调、音乐特征、环境音等对于完整理解视频内容是必要的但现有模型还无法有效利用这些信息。六、这项研究对AI发展的深远意义这项研究的价值远不止于揭示了当前AI模型的局限性。它为AI领域的未来发展提供了重要的方向指引。首先这个基准测试填补了长时间音视频理解评估的空白。就像马拉松比赛对于评估长跑运动员的真实能力一样这个基准为评估AI的实际应用能力提供了更贴近现实的测试环境。其次研究结果揭示了跨模态理解的复杂性。真正的智能不是简单地将不同感官信息相加而是要像人类一样将视觉、听觉信息融合成统一的理解。这为AI架构设计提出了新的挑战和要求。此外这项研究还凸显了时序建模在AI系统中的重要性。在长时间序列中保持信息的连贯性和相关性是构建真正智能系统的关键能力之一。研究团队的发现还表明当前的AI训练方法可能需要重新思考。大多数AI模型在短片段上训练得很好但在长序列处理上却表现不佳这说明我们需要开发新的训练策略和架构设计。七、普通人也能从中获得的启示虽然这是一项高度技术性的研究但它的意义并不局限于AI研究领域。对于普通人来说这项研究揭示了一些有趣的现象。当我们与AI助手互动时可能会发现它们在处理复杂、多步骤的任务时容易出错。现在我们知道了原因这些AI模型在长时间信息整合和跨模态理解方面还存在根本性限制。这也解释了为什么现在的AI视频分析工具通常只能处理短片段而无法对完整的电影或讲座进行深度分析。当我们期望AI帮助我们总结会议录音或分析教学视频时需要理解这些技术限制。同时这项研究也让我们更加欣赏人类认知能力的复杂性和精妙之处。我们能够毫不费力地观看一部两小时的电影理解复杂的情节发展感受音乐带来的情感变化这些对AI来说仍然是巨大的挑战。说到底这项研究就像是给AI系统进行了一次全面的体检结果显示它们在处理真实世界复杂任务方面还有很长的路要走。虽然AI在某些特定任务上已经超越了人类但在需要长时间注意力、跨模态理解和复杂推理的任务上它们仍然需要大幅改进。这个发现既不应该让我们过度悲观也不应该让我们盲目乐观。相反它为AI技术的未来发展指明了清晰的方向也提醒我们在使用AI工具时要了解它们的能力边界。随着这个基准测试的发布相信会有更多研究团队投入到解决这些挑战中最终推动AI技术向更加智能、更加实用的方向发展。对于那些对这项突破性研究感兴趣的读者可以通过论文编号arXiv:2603.19217v1查找完整的研究报告深入了解技术细节和实验数据。QAQ1LVOmniBench测试基准与现有的AI视频理解测试有什么不同ALVOmniBench专门针对长时间音视频理解设计平均视频长度超过34分钟是现有基准的6倍以上。它不仅要求AI理解画面还必须同时处理音频信息更接近真实世界的应用场景。现有大多数测试只关注10秒到5分钟的短片段无法反映AI在处理完整视频内容时的真实能力。Q2为什么连最先进的AI模型在长视频理解上表现都不好A主要原因包括四个方面感知错误占34%AI在视觉计数和音频细节识别上困难时间定位错误占19.6%难以在长时间序列中准确定位事件跨模态理解鸿沟占19%无法有效融合音视频信息推理错误占23.5%在逻辑推理和空间关系判断上出错。这些问题在短视频中不明显但在长视频中被放大。Q3这个研究对普通用户使用AI产品有什么启示A这项研究解释了为什么现在的AI助手在处理长视频分析、会议总结等复杂任务时容易出错。用户应该理解当前AI的能力边界在使用相关功能时适当降低期望值同时可以通过将长任务分解为短片段来获得更好的效果。随着技术进步这些限制会逐步改善。