PulseAugur
实时 13:45:06
实体 agie-ai

agie-ai

PulseAugur coverage of agie-ai — every cluster mentioning agie-ai across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. COMMENTARY · CL_115910 ·

    开发者发现 LLM-as-a-Judge 系统不可靠且存在偏见

    一位开发者构建了一个基于 LLM 的评分系统,称为“LLM-as-a-Judge”,用于评估其他语言模型的响应。该系统使用来自 LMSYS Chatbot Arena 的数据,并与人类偏好进行了测试。实验揭示了两个关键的失败之处:裁判模型表现出较低的分数稳定性以及狭窄的输出范围,很少偏离 7 或 8 分,因此缺乏区分度。此外,在将平局视为失误的情况下,裁判模型与人类偏好的吻合度仅为 43%,表明它常常无法区分正确和错误的答案,有时甚至…