实体 Optimization Modeling

Optimization Modeling

PulseAugur coverage of Optimization Modeling — every cluster mentioning Optimization Modeling across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_29402 · May 12 · 14:07

新基准测试用于评估多模态大语言模型处理复杂优化任务的能力

研究人员推出 MM-OptBench，这是一个旨在评估多模态大语言模型（MLLMs）在优化建模任务上的新基准测试。该基准测试结合了文本和视觉信息，这与仅限文本的现有评估不同，更能反映实际操作实践。对包括前沿通用模型和数学专业模型在内的九个 MLLMs 的初步评估显示，该任务仍然具有挑战性，最好的模型在简单实例上的准确率仅约为 52%，在更难的实例上则显著更低。

新基准测试用于评估多模态大语言模型处理复杂优化任务的能力