PulseAugur
实时 10:19:47
实体 Kina

Kina

PulseAugur coverage of Kina — every cluster mentioning Kina across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
时间线
  1. 2026-06-04 research_milestone Researchers introduced the KINA benchmark to evaluate LLMs across 261 disciplines, with Gemini-3.1-Pro-Preview achieving the highest score. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_70254 ·

    新的KINA基准测试跨越261个学科评估LLM

    一个名为KINA的新基准已被开发出来,用于评估大型语言模型在261个细粒度学科上的表现,解决了由规模驱动的设计和标注质量问题。该基准包含899个条目,通过新颖的竞赛系统旨在实现学科代表性和提高评审质量。在对42个模型的评估中,Gemini-3.1-Pro-Preview以53.17%的得分领先,其次是Claude-Opus-4.6和GPT-5.4,表明仍有很大的改进空间。