English(EN) Rigel: Self-Distilled Score Adaptation for Image and Video Captioning Evaluation

新的Rigel指标增强了图像和视频字幕评估

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出了一种名为Rigel的新型指标，用于评估图像和视频字幕系统，旨在提高与人类判断的一致性。Rigel采用自蒸馏分数自适应方法，利用从大型语言模型（LLM）派生的特定于评估的评分头来捕获与任务对齐的信号，而无需依赖大型词汇集。该指标的骨干通过人类判断数据进一步完善，并通过创建Vid-Lepus数据集证明了其有效性。实验表明，Rigel的性能显著优于现有指标，在ActivityNet-Fact等基准测试中取得了重大改进。 AI

影响这项新指标可能导致对图像和视频字幕模型进行更准确的基准测试，从而推动多模态AI的发展。

排序理由该集群描述了一篇介绍多模态AI系统新评估指标的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Shuitsu Koyama, Kazuki Matsuda, Yuiga Wada, Shinnosuke Hirano, Daichi Yashima, Komei Sugiura · 2026-06-30 04:00

Rigel：图像和视频字幕评估的自蒸馏分数自适应

arXiv:2606.29997v1 Announce Type: new Abstract: Automatic evaluation of image and video captioning is essential for benchmarking multimodal systems, although standard evaluation metrics show limited alignment with human judgments. Recent approaches using large language models (LL…

报道来源 [1]

Rigel：图像和视频字幕评估的自蒸馏分数自适应

相关实体

相关话题