PulseAugur
实时 09:14:15
English(EN) Rigel: Self-Distilled Score Adaptation for Image and Video Captioning Evaluation

新的Rigel指标增强了图像和视频字幕评估

研究人员推出了一种名为Rigel的新型指标,用于评估图像和视频字幕系统,旨在提高与人类判断的一致性。Rigel采用自蒸馏分数自适应方法,利用从大型语言模型(LLM)派生的特定于评估的评分头来捕获与任务对齐的信号,而无需依赖大型词汇集。该指标的骨干通过人类判断数据进一步完善,并通过创建Vid-Lepus数据集证明了其有效性。实验表明,Rigel的性能显著优于现有指标,在ActivityNet-Fact等基准测试中取得了重大改进。 AI

影响 这项新指标可能导致对图像和视频字幕模型进行更准确的基准测试,从而推动多模态AI的发展。

排序理由 该集群描述了一篇介绍多模态AI系统新评估指标的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的Rigel指标增强了图像和视频字幕评估

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Shuitsu Koyama, Kazuki Matsuda, Yuiga Wada, Shinnosuke Hirano, Daichi Yashima, Komei Sugiura ·

    Rigel:图像和视频字幕评估的自蒸馏分数自适应

    arXiv:2606.29997v1 Announce Type: new Abstract: Automatic evaluation of image and video captioning is essential for benchmarking multimodal systems, although standard evaluation metrics show limited alignment with human judgments. Recent approaches using large language models (LL…