新基准测试 LLM 在交互式几何构建方面的能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-13 08:30

研究人员开发了 GeoBuildBench，一个评估大型语言和多模态模型将自然语言几何问题转化为可执行构建程序能力的基准。该基准与其他基准的不同之处在于，它侧重于几何图的交互式生成，而不仅仅是静态解释或答案的正确性。它包含 489 个中文课本风格的问题，评估显示当前模型在结构幻觉和约束满足方面存在困难，表明需要改进基于现实的推理能力。 AI

影响该基准提供了一个严格的测试，用于评估 AI 的基于现实的、可执行的推理能力，超越了简单的文本或图像解释。

排序理由该集群描述了一篇介绍用于评估 AI 模型基准的新学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Huishuai Zhang · 2026-05-13 08:30

GeoBuildBench：用于自然语言交互式和可执行几何构建的基准测试

We introduce GeoBuildBench, a benchmark designed to evaluate whether large language models and multimodal agents can ground informal natural-language plane geometry problems into executable geometric constructions. Unlike existing geometry benchmarks that focus on answer correctn…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-13 08:30

GeoBuildBench：用于自然语言交互式和可执行几何构建的基准测试

We introduce GeoBuildBench, a benchmark designed to evaluate whether large language models and multimodal agents can ground informal natural-language plane geometry problems into executable geometric constructions. Unlike existing geometry benchmarks that focus on answer correctn…

报道来源 [2]

GeoBuildBench：用于自然语言交互式和可执行几何构建的基准测试

GeoBuildBench：用于自然语言交互式和可执行几何构建的基准测试

相关实体

相关话题