实体 ranking-scoring decoupling

ranking-scoring decoupling

PulseAugur coverage of ranking-scoring decoupling — every cluster mentioning ranking-scoring decoupling across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_08218 · Apr 28 · 05:30

VLM 在多模态评估中表现出任务依赖性不确定性，影响评分可靠性。

一篇新论文引入了保形预测，用于评估视觉语言模型（VLM）作为多模态系统的自动化裁判时的可靠性。研究表明，VLM 评估中的不确定性高度依赖于特定任务，与图像美学相比，数学推理任务显示出明显更宽、信息量更少的预测区间。这项工作还发现了一个关键问题，称为“排名-评分解耦”，即 VLM 可以准确地对响应进行排名，但无法提供可靠的绝对分数，这凸显了对更鲁棒的评估方法的需求。

VLM 在多模态评估中表现出任务依赖性不确定性，影响评分可靠性。