一个名为KINA的新基准已被开发出来,用于评估大型语言模型在261个细粒度学科上的表现,解决了由规模驱动的设计和标注质量问题。该基准包含899个条目,通过新颖的竞赛系统旨在实现学科代表性和提高评审质量。在对42个模型的评估中,Gemini-3.1-Pro-Preview以53.17%的得分领先,其次是Claude-Opus-4.6和GPT-5.4,表明仍有很大的改进空间。 AI
影响 为LLM评估建立了一个新的、更严格的基准,可能推动模型能力和学科理解的改进。
排序理由 该集群包含一篇介绍LLM评估新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →