研究人员开发了一个名为 Ego-MC-Bench 的新基准,用于评估视频大语言模型(LLMs)在任务执行过程中提供实时指导和纠正错误的能力。该基准专注于烹饪场景,揭示了当前最先进的视频大语言模型由于缺乏合适的训练数据而难以实现此功能。为解决此问题,创建了一个名为 Ego-CoMist 的合成数据集,该数据集在用于微调时展示了性能提升,特别是对于更小、更高效的大语言模型。 AI
影响 这项研究可能带来更有用的 AI 助手,能够为复杂任务提供实时的纠正性指导。
排序理由 该集群包含一篇介绍用于评估视频大语言模型的新基准和数据集的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →