一篇新的研究论文认为,目前大型语言模型(LLM)的排行榜因用户在不同语言和任务上的偏好存在显著异质性而具有误导性。该研究分析了Arena上52个LLM的约89,000次比较,发现全球排名常常掩盖了用户意见的特定亚群。为解决此问题,研究人员提出了一种$(\lambda, \nu)$-投资组合框架,这是一小组模型,旨在以有界的预测误差覆盖特定比例的用户偏好。 AI
影响 挑战了当前LLM评估指标的有效性,并提出了一种更细致的模型比较方法。
排序理由 学术论文,分析LLM排行榜并提出新框架。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →