PulseAugur
实时 20:05:23
实体 ranking-scoring decoupling

ranking-scoring decoupling

PulseAugur coverage of ranking-scoring decoupling — every cluster mentioning ranking-scoring decoupling across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08218 ·

    VLM 在多模态评估中表现出任务依赖性不确定性,影响评分可靠性。

    一篇新论文引入了保形预测,用于评估视觉语言模型(VLM)作为多模态系统的自动化裁判时的可靠性。研究表明,VLM 评估中的不确定性高度依赖于特定任务,与图像美学相比,数学推理任务显示出明显更宽、信息量更少的预测区间。这项工作还发现了一个关键问题,称为“排名-评分解耦”,即 VLM 可以准确地对响应进行排名,但无法提供可靠的绝对分数,这凸显了对更鲁棒的评估方法的需求。