PulseAugur
实时 16:18:12
实体 ORLoopBench

ORLoopBench

PulseAugur coverage of ORLoopBench — every cluster mentioning ORLoopBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_53779 ·

    新基准套件评估运筹学中AI的自纠错能力

    研究人员开发了ORLoopBench,这是一个旨在评估和改进运筹学(OR)中AI模型自纠错和行为理性能力的新基准套件。该套件包括OR-Debug-Bench,其中包含超过5000个用于修复不可行线性规划(LP)和混合整数规划(MILP)模型的实例,以及用于评估决策理性能力的OR-Bias-Bench。使用求解器内循环方法训练一个8B参数模型,显著提高了其在LP修复任务上的性能,超越了当前前沿API。