PulseAugur
实时 17:45:54
English(EN) ORLoopBench: Solver-in-the-Loop Benchmarks for Self-Correction and Behavioral Rationality in Operations Research

新基准套件评估运筹学中AI的自纠错能力

研究人员开发了ORLoopBench,这是一个旨在评估和改进运筹学(OR)中AI模型自纠错和行为理性能力的新基准套件。该套件包括OR-Debug-Bench,其中包含超过5000个用于修复不可行线性规划(LP)和混合整数规划(MILP)模型的实例,以及用于评估决策理性能力的OR-Bias-Bench。使用求解器内循环方法训练一个8B参数模型,显著提高了其在LP修复任务上的性能,超越了当前前沿API。 AI

影响 该基准测试可能带来更可靠的运筹学复杂问题解决AI系统,改进调试和决策过程。

排序理由 该集群包含一篇介绍运筹学AI新基准套件的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准套件评估运筹学中AI的自纠错能力

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Ruicheng Ao, David Simchi-Levi, Xinshang Wang ·

    ORLoopBench:用于运筹学中自纠错和行为理性的求解器内循环基准测试

    arXiv:2601.21008v3 Announce Type: replace-cross Abstract: Operations Research practitioners debug infeasible models through an iterative process: inspecting Irreducible Infeasible Subsystems ( IIS), identifying constraint conflicts, and repairing formulations until feasibility is…