团队贡献

量子比特 | 官方账号

大模型变成了夏洛克·福尔摩斯,学会了如何检测视频异常。

华中科技大学、百度和密歇根大学的研究团队提出了一种可解释的视频异常检测框架-VAD。

-VAD不仅可以准确定位视频异常,还可以对检测到的异常提供解释和分析。

例如,如果你给它看一段监控视频,并问它视频里是否有任何异常迹象,它会立即识别出:

事情出现异常,一辆白色面包车行驶在路上,突然出现一辆摩托车,与面包车相撞,造成严重事故。

爆炸场景也没问题:

视频显示,沙漠地区发生大规模爆炸,大量烟雾和灰尘飘散在空中。这是不正常的,因为如此突然和剧烈的能量释放在自然环境中是一种意料之外的、不寻常的事件。

它还能正确识别和解释篮球追逐、比赛等令人困惑的视频:

视频中是一场普通的篮球比赛,球员们在保养良好的球场上比赛。这是体育赛事中常见且熟悉的场景,没有任何异常或可疑的行为。

-VAD基于大型多模态视频模型进行微调,利用精准的时间监督和丰富的多模态指令实现准确的异常定位和全面的解释,在监控视频安全分析、视频生成内容检查等领域具有广阔的应用前景。

在定量和定性实验中,-VAD 在许多方面优于以前的 SOTA 方法。

此外澳门资料大全正版资料2023年免费,研究团队还首次在视频异常检测领域引入了大规模多模态指令数据集VAD-。

那么,-VAD、VAD- 是什么样子的?

使用数据引擎构建大规模数据集

首先,研究团队构建了第一个大规模多模态VAD指令微调数据集VAD-。

该数据集是使用半自动数据引擎创建的。

系统分析(澳门100%最准一肖一码)突破不可解释性!新视频异常检测框架实现 SOTA,准确率达 90.67%  第1张

△数据引擎流程图

主要步骤包括:

时间序列单帧标注

研究团队采用了一种高效的时序标注方法,即对涉及异常事件的随机单帧进行标注,以降低标注成本,并有助于扩大标注视频的数量。

事件片段生成

基于单帧标注,团队设计了一种可靠的伪帧级标签生成方法。对于每个具有单帧标注 G = {gi} 的异常视频及其由训练后的 VAD 网络估计的异常分数,在标注帧周围生成多个异常事件提议。对于正常视频,还随机提取多个正常事件提议。

该过程完成后,收集所有带有异常标签的剪辑事件片段:E = {si,ei,yi},其中,如果事件片段来自异常视频,则将yi设置为视频的异常类别(例如爆炸),否则设置为正常。

事件片段描述

为了充分提取事件片段中的语义信息,研究人员使用基于视频的多模态大语言模型(MLLM)为每个事件片段生成详细的描述。

还包括一个数据集,该数据集为 UCF-Crime 视频片段提供手动注释的详细细粒度事件描述。结合这些资源后,我们获得了所有事件片段以及相应的描述和异常标签:E = {si, ei, yi, ci}。

异常对话生成

研究人员使用异常标签和事件片段描述作为视频的文本信息,设计了丰富的异常内容问题,例如:“视频片段中是否有或?”。

输入大型语言模型进行分析解答,得到“视频-问答”指令对,最后筛选过滤掉质量较差的指令对。

提出一个可解释的视频异常检测框架

为了实现开放世界视频异常检测(VAD),现有方法在面对具有挑战性或看不见的事件时往往会表现出偏见,并且无法解释异常内容。

研究团队在VAD-基础上,设计了可解释的视频异常检测框架-VAD。

系统分析(澳门100%最准一肖一码)突破不可解释性!新视频异常检测框架实现 SOTA,准确率达 90.67%  第2张

系统分析(澳门100%最准一肖一码)突破不可解释性!新视频异常检测框架实现 SOTA,准确率达 90.67%  第3张

△网络框架

它由以下部分组成:

视觉编码器

研究团队使用了一种继承了 CLIP 的 ViT-L/14 结构的冻结视频编码器,并将其称为 ϕv。

与原始的ViT不同,它通过在时间维度上添加自注意层来建模帧之间的时间关系。

定时采样器

由于视频中包含的视觉信息量巨大,导致计算负担过重,过去基于视频的MLLM方法采用视频的均匀时间帧采样,例如8帧。

研究团队认为,这种方法显然不适合视频异常检测任务中的长视频,因为它增加了忽略关键信息的概率。

为了解决这个问题,团队首先使用 VAD 网络评估每个帧的异常分数,该网络接收视频帧的 cls 标记并输出异常分数:

然后,根据异常分数对视频标签进行采样。

具体来说,只有相应异常分数高于设定阈值的帧才会被输入到LLM中,这样模型就能高效地应对长视频。

法学硕士

为了让LLM能够理解视觉编码器输出的特征,在它们之间设计了一个两层的MLP,与LLM的输入维度对齐,团队将其作为LLM使用。

效果如何?

在训练过程中,利用时间序列中的单帧异常标注训练时间采样器选取异常响应较高的帧,并利用数据集中与异常相关的对话内容微调多模态大语言模型(MLLM)生成解释内容。

研究人员进行了大量定量和定性实验分析,结果验证了所提出的VAD的多功能性和可解释性。

在定量评估方面,研究人员将提出的方法与最先进的方法进行了比较,包括半监督方法、无监督方法、弱监督方法和最近无方法。

它们的骨干网络、监督方法以及在 UCF-Crime 和 XD- 数据集上的性能列于下表 1 中。

-VAD 方法在 XD- 上实现了 90.67% 的 AP,在 UCF-Crime 上实现了 89.51% 的 AUC,明显优于之前最先进的方法,并证明该方法可以生成偏差较小的异常分数。

系统分析(澳门100%最准一肖一码)突破不可解释性!新视频异常检测框架实现 SOTA,准确率达 90.67%  第4张

△表1 视频异常检测性能比较

值得一提的是,-VAD不仅实现了准确的异常定位,还对模型检测到的异常进行了解释和分析,这是现有无法解释的VAD方法所不具备的功能。

尽管LAVAD具有可解释性,但由于缺乏足够的监督数据,这种未经训练的大型语言模型对异常知识的理解有限。

此外,研究人员还进行了一项用户研究,使用 86 个测试样本和 10 名志愿者评估三种不同的训练策略:

如表2所示系统分析(澳门100%最准一肖一码)突破不可解释性!新视频异常检测框架实现 SOTA,准确率达 90.67%,+LoRA给出了最详细的回应(平均46.13个字),并取得了最高的判断准确率(86.0%)。

此外,它在内容感知和异常解释方面也获得了最高的投票率,分别为 61.2% 和 51.9%。

系统分析(澳门100%最准一肖一码)突破不可解释性!新视频异常检测框架实现 SOTA,准确率达 90.67%  第5张

△表2. 不同微调策略的影响

在定性结果方面,研究人员将-VAD的可解释性结果与Video-LLaVA(未进行微调)进行了比较。正确和不正确的解释分别以绿色和红色表示。

系统分析(澳门100%最准一肖一码)突破不可解释性!新视频异常检测框架实现 SOTA,准确率达 90.67%  第6张

结果表明,-VAD 可以准确识别视频中的异常,并对汽车摄像头捕捉到的体育比赛中的冲突、爆炸和事故(异常案例)提供具体的解释。

即使对于正常视频,-VAD 也表现出强大的分析能力,并纠正时间采样器的错误响应(正常情况)。这些发现凸显了 -VAD 在感知视频事件和分析异常方面的有效性和优势。

项目主页:

论文地址: