PulseAugur
实时 11:02:38
English(EN) Knowledge Index of Noah's Ark

新的KINA基准测试跨越261个学科评估LLM

一个名为KINA的新基准已被开发出来,用于评估大型语言模型在261个细粒度学科上的表现,解决了由规模驱动的设计和标注质量问题。该基准包含899个条目,通过新颖的竞赛系统旨在实现学科代表性和提高评审质量。在对42个模型的评估中,Gemini-3.1-Pro-Preview以53.17%的得分领先,其次是Claude-Opus-4.6和GPT-5.4,表明仍有很大的改进空间。 AI

影响 为LLM评估建立了一个新的、更严格的基准,可能推动模型能力和学科理解的改进。

排序理由 该集群包含一篇介绍LLM评估新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen … ·

    Knowledge Index of Noah's Ark

    arXiv:2606.05104v1 Announce Type: new Abstract: Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded…