研究人员开发了MIPLIB-NL,一个旨在评估大型语言模型将自然语言转化为优化公式和可执行代码能力的新基准。该基准源自MIPLIB 2017中的真实世界混合整数线性规划问题,解决了现有玩具规模或合成数据集的局限性。实验表明,与现有基准相比,当前的大型语言模型在MIPLIB-NL上的表现明显较差,揭示了此前被掩盖的工业规模问题的挑战。 AI
影响 突出了大型语言模型在现实世界工业优化能力方面的关键差距,可能指导未来模型开发。
排序理由 该集群包含一篇研究论文,介绍了用于评估大型语言模型在优化任务上性能的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →