English(EN) EvoVid: Temporal-Centric Self-Evolution for Video Large Language Models

EvoVid框架使视频大语言模型能够利用原始视频数据进行自进化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员推出了一种名为EvoVid的新型框架，旨在通过时间中心自进化来增强视频大语言模型（Video-LLMs）。与以往仅限于静态数据的自进化方法不同，EvoVid通过关注时间动态，使Video-LLMs能够直接从原始、未标注的视频中学习。该框架结合了用于问题生成和视频片段定位的专门奖励，从而在多个基准测试和基础模型上实现了持续的性能提升。 AI

影响使Video-LLMs能够直接从未标注的视频中进行改进，有可能减少对昂贵的人工监督的依赖。

排序理由该集群包含一篇详细介绍视频大语言模型新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Shiqi Huang, Ziyue Wang, Zhongrong Zuo, Han Qiu, Qi She, Bihan Wen · 2026-05-22 04:00

EvoVid: Temporal-Centric Self-Evolution for Video Large Language Models

arXiv:2605.21931v1 Announce Type: new Abstract: Recent Video Large Language Models (Video-LLMs) have demonstrated strong capabilities in video reasoning through reinforcement learning (RL). However, existing RL pipelines rely heavily on human-annotated tasks and solutions, making…

报道来源 [1]

EvoVid: Temporal-Centric Self-Evolution for Video Large Language Models

相关实体

相关话题