实体 VIA-Judge-Agent

VIA-Judge-Agent

PulseAugur coverage of VIA-Judge-Agent — every cluster mentioning VIA-Judge-Agent across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_62277 · May 29 · 14:28

新基准发现视觉语言模型在视障辅助方面不可靠

研究人员开发了VIABLE，一个旨在评估视觉语言模型（VLMs）在作为视障辅助（VIA）任务裁判时的可靠性的新基准。他们的研究测试了七个不同的VLM裁判，发现当前模型在很大程度上不可靠，即使是表现最好的GPT-5.4，诊断准确性也有限。为了改进这一点，他们提出了VIA-Judge-Agent，一个通过视觉证据提取和结构化工作流程来增强裁判能力的工具，从而提高准确性和用户偏好响应。