Hugging Face Open LLM Leaderboard 已更新其评估方法论,纳入了 MMLU 基准测试,这是一项涵盖 57 个科目的综合语言模型知识测试。此举旨在通过纳入更广泛的学术和专业领域来提供对模型能力的更可靠评估。该排行榜现在使用 MMLU 分数的加权平均值以及现有基准来对开源大型语言模型进行排名。 AI
排序理由 Hugging Face Open LLM Leaderboard 更新了其评估方法论,纳入了 MMLU 基准测试,这是学术研究中评估 LLM 的常见做法。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →