English(EN) LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

新基准揭示大型多模态模型难以应对真实高中考试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

一个名为 LiveK12Bench 的新基准已被开发出来，用于评估大型多模态模型（LMMs）在高中水平考试中的能力。这个动态的、跨学科的基准包含来自近期真实考试试卷的 2,000 多个问题，涵盖数学、物理、化学和生物学。使用 LiveK12Bench 进行的实验显示，GPT-5 等先进模型的性能显著下降，凸显了它们理想化推理与教育应用准备度之间的差距。 AI

影响强调了大型多模态模型在处理复杂、真实的教育评估方面的关键局限性，表明需要超越当前推理基准的进一步发展。

排序理由该集群描述了一篇介绍用于评估AI模型的新型基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xiaohan Wang, Mingze Yin, Yilin Zhao, Gang Liu, Dian Li · 2026-05-27 04:00

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

arXiv:2605.26781v1 Announce Type: new Abstract: Advanced Large Multimodal Models (LMMs) have demonstrated impressive performance in K-12 reasoning tasks, exhibiting great promise as intelligent tutors. Realizing this potential requires models to navigate real-world examinations e…

报道来源 [1]

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

相关实体

相关话题