实体 agie-ai

agie-ai

PulseAugur coverage of agie-ai — every cluster mentioning agie-ai across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

COMMENTARY · CL_115910 · Jun 29 · 08:05

开发者发现 LLM-as-a-Judge 系统不可靠且存在偏见

一位开发者构建了一个基于 LLM 的评分系统，称为“LLM-as-a-Judge”，用于评估其他语言模型的响应。该系统使用来自 LMSYS Chatbot Arena 的数据，并与人类偏好进行了测试。实验揭示了两个关键的失败之处：裁判模型表现出较低的分数稳定性以及狭窄的输出范围，很少偏离 7 或 8 分，因此缺乏区分度。此外，在将平局视为失误的情况下，裁判模型与人类偏好的吻合度仅为 43%，表明它常常无法区分正确和错误的答案，有时甚至…