PulseAugur
实时 19:41:12
实体 Multimodal Evaluation

Multimodal Evaluation

PulseAugur coverage of Multimodal Evaluation — every cluster mentioning Multimodal Evaluation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08218 ·

    VLM 在多模态评估中表现出任务依赖性不确定性,影响评分可靠性。

    一篇新论文引入了保形预测,用于评估视觉语言模型(VLM)作为多模态系统的自动化裁判时的可靠性。研究表明,VLM 评估中的不确定性高度依赖于特定任务,与图像美学相比,数学推理任务显示出明显更宽、信息量更少的预测区间。这项工作还发现了一个关键问题,称为“排名-评分解耦”,即 VLM 可以准确地对响应进行排名,但无法提供可靠的绝对分数,这凸显了对更鲁棒的评估方法的需求。