【即插即用完整代码】AAAI 2026 “一看就懂，先扫后察”大模型让视频异常无处遁形！

张

张建站

2026/5/23 4:20:33

10分钟阅读

【即插即用完整代码】AAAI 2026 “一看就懂，先扫后察”大模型让视频异常无处遁形！

专栏内提供试读感兴趣的小伙伴可以订阅一下哈适用于所有的CV二维任务图像分割、超分辨率、目标检测、图像识别、低光增强、遥感检测等每日分享最新的前沿技术助力快速发论文、模型涨点一、摘要当前视频异常检测方法主要分为两类传统深度神经网络方法侧重于异常事件的时间定位而基于大语言模型的方法则强调异常事件的语义理解。然而现有方法中没有一个能够同时支持这两种任务也缺乏相应的数据集。为了解决这一问题研究团队提出了VAGU这是第一个将异常定位与异常理解联合起来的基准数据集。VAGU包含超过7500个真实世界视频涵盖21大类异常事件并提供超过20000个与异常相关的问答对。在此基础上论文提出了一个名为“先扫视后细察”的无训练框架通过文本提示引导模型先进行粗粒度的异常区域定位再进行细粒度的异常理解和时间边界精修。此外论文还提出了JeAUG评估指标能够联合评估语义理解与时间定位的精度克服了传统指标的局限性。大量实验验证了该基准、框架和评估指标的有效性。二、引言视频异常检测在工业自动化、智能监控和智能交通等领域的应用越来越广泛已成为计算机视觉的重要研究方向。然而现有方法存在明显的“能力割裂”现象传统方法只能给出异常发生的时间大语言模型方法则只能描述异常是什么二者缺乏有效协同。论文指出虽然一些视觉语言模型尝试同时实现定位与理解但计算开销极大难以满足实时性要求。为此作者系统探讨了三个关键问题为什么定位与理解缺一不可为什么现有视觉问答和视频时序定位模型在异常检测中表现不佳为什么要采用无训练框架答案在于异常检测需要“何时”与“什么”的协同而现有模型缺乏开放场景下的异常定义标准以及真实世界中异常数据获取困难、标注成本高。基于这些思考作者重新定义了视频异常检测任务并提出了VAGU基准和GtS框架。三、创新点本论文的主要创新点包括以下四个方面第一构建了VAGU数据集这是首个将异常定位与异常理解结合的大规模视频异常检测基准同时提供了客观的异常相关多项选择题。第二提出了GtS无训练框架通过动态与静态文本提示在现有多模态大语言模型上构建异常定位与理解能力。第三设计了JeAUG评估指标能够联合量化语义准确性与定位精度并引入视频时长加权因子使得评估更加公平全面。第四在VAGU上开展了大量实验验证了基准、框架与评估指标的优越性。四、实验在实验部分论文从多个维度对提出的VAGU基准、GtS框架和JeAUG指标进行了系统评估。首先在VAGU数据集上作者对比了多种主流视觉语言模型在异常理解与异常定位任务上的表现。实验结果显示现有模型在异常视频的定位任务上普遍表现不佳例如mPLUG-Owl的IoU仅为12.6%TimeChat最高也仅为14.8%这说明当前模型在异常事件的精确时间定位方面仍有很大提升空间。其次论文评估了GtS框架在不同模型上的提升效果。以Qwen-2.5-VL-7B模型为例原始模型在异常理解任务中得分较低而加入GtS框架后得分从3.61提升至5.50。相比之下简单地将视频均匀分段并增加采样帧数得分仅提升至4.02说明GtS的关键在于引导模型关注异常相关线索而非单纯增加数据量。对于Video-R1等具备推理能力的模型GtS同样显著改善了其在整段视频推理中的性能避免了无关帧的干扰。在异常定位任务中GtS框架通过细粒度的语义理解作为上下文提示显著提升了定位精度。实验表明GtS在不同模型上均带来一致的定位性能提升尤其在需要多段证据融合的因果异常行为中表现更为突出。例如在盗窃或纵火等需要多步骤完成的异常事件中GtS能够有效整合不同片段的信息实现更准确的时间边界定位。在异常问答任务中尽管当前模型在面对开放性问题时仍存在困难但GtS仍然带来了超过10%的总体性能提升。论文还指出当JeAUG评分低于3分时模型往往无法正确理解或定位异常而评分超过3分时模型表现普遍较好因此将3分作为可接受性能的下限。此外作者还对JeAUG指标本身进行了人类偏好对齐实验。十位标注者对同一异常事件的定位结果两两IoU最低约为0.7因此设计了以0.7为满分的分段评分函数并引入视频时长补偿因子使得长视频中的异常定位评估更加合理。与传统指标如ROUGE、BLEU、METEOR相比JeAUG在异常理解任务中的变异系数更低说明其更具稳定性和公平性。最后论文还通过多个案例展示了GtS框架在实际视频中的推理过程。例如在一个包含老人被虐待的视频中GtS通过分段分析成功捕捉到推搡、打脸等异常行为而直接使用VQA模型则输出完全错误或无关的描述。整体而言实验充分证明了VAGU基准的有效性、GtS框架的优越性以及JeAUG指标的合理性。五、结论综上所述本论文针对视频异常检测中“何时”与“什么”能力割裂的问题提出了VAGU基准数据集、GtS无训练框架和JeAUG联合评估指标。VAGU是首个同时支持异常定位与异常理解的大规模数据集GtS框架在无训练条件下显著提升了现有多模态模型的异常检测能力JeAUG指标则实现了更公平、更全面的性能评估。大量实验验证了所提方法的有效性。每日分享最新的前沿技术助力快速发论文、模型涨点欢迎点赞关注评论转发添加下方个人微信

AI INFRA之NVIDIA GPUDirect节点内和节点间通信原理详解

本文是基于AI云智公坊的公众号文章整理而来，如有侵权请联系作者删除。 NVIDIA GPUDirect 是一系列旨在增强数据中心 GPU 间数据传输与访问能力的技术统称。其核心目标是减少 GPU 间数据传输过程中不必要的拷贝、提升通信链路带宽并降低通信延迟。按通信范围划分&am…...

2026/5/23 4:20:08 阅读更多 →

【Typora图片保存为相对路径】

Typora图片保存为相对路径1 一个文档建1个文件夹2 设置相对路径3 注意事项1 一个文档建1个文件夹 2 设置相对路径指令：./markdown-img/${filename}.assets 3 注意事项 （1）只要粘贴图片，就会自动保存在本地。此时你删除文档内的…...

2026/5/23 4:19:44 阅读更多 →

PHP 的 resource（如数据库连接、文件句柄）不能被序列化。

它的本质是：resource 类型在 PHP 中只是一个整数索引 (Integer Index/Pointer)，它指向的是 PHP 进程之外、由操作系统内核 (OS Kernel) 或外部服务 (External Service) 管理的复杂结构（如 TCP 连接、打开的文件描述符、内存映射&#xff0…...

2026/5/23 4:15:00 阅读更多 →

在Taotoken模型广场中根据场景选择合适的模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Taotoken模型广场中根据场景选择合适的模型面对众多大模型厂商和琳琅满目的模型，开发者常常面临选择困难&#xff1…...

2026/5/22 17:26:41 阅读更多 →

Agent 一接流式 API 就开始响应断层：从 Delta Parsing 到 Final Assembly 的工程实战

很多开发者以为 Agent 接入流式 API 只是"开个 SSE 连接、逐字渲染"这么简单。直到生产环境报错：用户的话说到一半突然断层，工具参数在流中被截成两半，多轮对话上下句粘在一起。这些问题不是网络抖动，而是 Delta 解析和…...

2026/5/21 11:19:54 阅读更多 →

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案【免费下载链接】esp-sr Speech recognition 项目地址: https://gitcode.com/gh_mirrors/es/esp-sr ESP-SR是乐鑫推出的高性能嵌入式语音识别框架，专为资源受限的物联网设备设计…...

2026/5/22 17:51:20 阅读更多 →