研究人员开发了ORLoopBench,这是一个旨在评估和改进运筹学(OR)中AI模型自纠错和行为理性能力的新基准套件。该套件包括OR-Debug-Bench,其中包含超过5000个用于修复不可行线性规划(LP)和混合整数规划(MILP)模型的实例,以及用于评估决策理性能力的OR-Bias-Bench。使用求解器内循环方法训练一个8B参数模型,显著提高了其在LP修复任务上的性能,超越了当前前沿API。 AI
影响 该基准测试可能带来更可靠的运筹学复杂问题解决AI系统,改进调试和决策过程。
排序理由 该集群包含一篇介绍运筹学AI新基准套件的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →