English(EN) Building a Precise Video Language with Human-AI Oversight

研究人员开发了具有人类-AI监督的精确视频语言模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了一个名为CHAI（基于批评的人类-AI监督）的新框架，以改进视频字幕和生成。该方法使用AI生成初始字幕，然后由人类专家进行精炼，从而实现更准确高效的标注。该系统的批评和偏好被用于微调Qwen3-VL等开源模型，使其性能优于Gemini-3.1-Pro等闭源替代品。这种方法也已应用于增强Wan等视频生成模型，从而能够根据广泛的提示对摄影进行更详细的控制。 AI

影响提高了视频字幕和生成精度，可能增强AI理解和创建复杂视觉叙事的能力。

排序理由该集群描述了一篇介绍视频语言模型新框架和数据集的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Zhiqiu Lin, Chancharik Mitra, Siyuan Cen, Isaac Li, Yuhan Huang, Yu Tong Tiffany Ling, Hewei Wang, Irene Pi, Shihang Zhu, Ryan Rao, George Liu, Jiaxi Li, Ruojin Li, Yili Han, Yilun Du, Deva Ramanan · 2026-04-28 04:00

构建精确的视频语言，辅以人类与AI的监督

arXiv:2604.21718v2 Announce Type: replace Abstract: Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks, and recipes for scalable oversight that enable precise video captioning. Fi…

报道来源 [1]

构建精确的视频语言，辅以人类与AI的监督

相关实体

相关话题