研究人员开发了K12-KGraph,一个新颖的知识图谱,旨在专门评估和训练K-12教育领域的大型语言模型(LLMs)。该图谱源自官方教材,捕捉了课程结构,包括先决条件和概念关系,超越了简单的事实回忆。为了支持这一点,他们创建了K12-Bench(一个包含23,640个问题的基准测试集)和K12-Train(一个微调数据集)。实验表明,当前的大型语言模型在课程认知方面存在困难,而K12-Train数据集在教育基准测试上显著提高了性能,且样本效率高。 AI
影响 为评估大型语言模型对教育课程的理解能力建立了新的基准,可能推动更具教学意识的人工智能的发展。
排序理由 该集群描述了一篇介绍用于评估教育领域大型语言模型的新颖数据集和基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- CMMLU
- EduEval
- GaokaoBench
- Gemini-3-Flash
- Gemma-4-31B-IT
- K12-Bench
- K12-KGraph
- K12-Train
- Llama-3.1-8B-Base
- LLMs
- Qwen3-4B-Base
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →