English(EN) ORLoopBench: Solver-in-the-Loop Benchmarks for Self-Correction and Behavioral Rationality in Operations Research

新基准套件评估运筹学中AI的自纠错能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员开发了ORLoopBench，这是一个旨在评估和改进运筹学（OR）中AI模型自纠错和行为理性能力的新基准套件。该套件包括OR-Debug-Bench，其中包含超过5000个用于修复不可行线性规划（LP）和混合整数规划（MILP）模型的实例，以及用于评估决策理性能力的OR-Bias-Bench。使用求解器内循环方法训练一个8B参数模型，显著提高了其在LP修复任务上的性能，超越了当前前沿API。 AI

影响该基准测试可能带来更可靠的运筹学复杂问题解决AI系统，改进调试和决策过程。

排序理由该集群包含一篇介绍运筹学AI新基准套件的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ruicheng Ao, David Simchi-Levi, Xinshang Wang · 2026-05-27 04:00

ORLoopBench：用于运筹学中自纠错和行为理性的求解器内循环基准测试

arXiv:2601.21008v3 Announce Type: replace-cross Abstract: Operations Research practitioners debug infeasible models through an iterative process: inspecting Irreducible Infeasible Subsystems ( IIS), identifying constraint conflicts, and repairing formulations until feasibility is…

报道来源 [1]

ORLoopBench：用于运筹学中自纠错和行为理性的求解器内循环基准测试

相关实体

相关话题