研究人员推出了一种新颖的视频异常检测模型Concentrate and Concentrate (CaC),该模型利用了视觉-语言模型。CaC采用粗粒度到细粒度的方法,首先全局识别异常时间窗口,然后在这些窗口内执行详细的空间定位。该模型采用三阶段渐进式范式进行训练,结合了监督微调和具有自定义时空IoU奖励的强化学习。实验表明,CaC在细粒度异常基准测试中准确率提高了25.7%,并减少了生成视频中的异常11.7%。 AI
排序理由 该集群包含一篇详细介绍新模型及其性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Concentrate and Concentrate (CaC)
- Group Relative Policy Optimization (GRPO)
- JiYuan Wang
- Vision-Language Models
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →