实体 LMSYS Chatbot Arena

LMSYS Chatbot Arena

PulseAugur coverage of LMSYS Chatbot Arena — every cluster mentioning LMSYS Chatbot Arena across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

COMMENTARY · CL_115910 · Jun 29 · 08:05

开发者发现 LLM-as-a-Judge 系统不可靠且存在偏见

一位开发者构建了一个基于 LLM 的评分系统，称为“LLM-as-a-Judge”，用于评估其他语言模型的响应。该系统使用来自 LMSYS Chatbot Arena 的数据，并与人类偏好进行了测试。实验揭示了两个关键的失败之处：裁判模型表现出较低的分数稳定性以及狭窄的输出范围，很少偏离 7 或 8 分，因此缺乏区分度。此外，在将平局视为失误的情况下，裁判模型与人类偏好的吻合度仅为 43%，表明它常常无法区分正确和错误的答案，有时甚至…
TOOL · CL_58775 · May 29 · 04:00

研究发现LLM代币定价易被多收费

一篇新的研究论文探讨了大型语言模型当前按代币计费定价模式中的经济激励和漏洞。研究表明，提供商可以通过错误报告代币使用量来故意向用户多收费，而用户很难检测到这种做法。该论文提出了一种基于字符计数的替代定价机制，以消除这些激励并维持提供商的盈利能力。

开发者发现 LLM-as-a-Judge 系统不可靠且存在偏见

研究发现LLM代币定价易被多收费