研究人员推出了一种名为Rigel的新型指标,用于评估图像和视频字幕系统,旨在提高与人类判断的一致性。Rigel采用自蒸馏分数自适应方法,利用从大型语言模型(LLM)派生的特定于评估的评分头来捕获与任务对齐的信号,而无需依赖大型词汇集。该指标的骨干通过人类判断数据进一步完善,并通过创建Vid-Lepus数据集证明了其有效性。实验表明,Rigel的性能显著优于现有指标,在ActivityNet-Fact等基准测试中取得了重大改进。 AI
影响 这项新指标可能导致对图像和视频字幕模型进行更准确的基准测试,从而推动多模态AI的发展。
排序理由 该集群描述了一篇介绍多模态AI系统新评估指标的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →