PulseAugur
实时 07:58:06
实体 OptReward

OptReward

PulseAugur coverage of OptReward — every cluster mentioning OptReward across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_109524 ·

    MiniOpt框架学会以有限资源解决优化问题

    研究人员推出了MiniOpt,这是一个旨在用有限资源解决通用优化问题的强化学习框架。该方法将优化推理分解为结构化建模和可执行求解器生成。MiniOpt利用了一种新颖的奖励函数OptReward,该函数同时评估公式化和解决方案的质量,从而能够在不需要专家演示的情况下进行有效的策略学习。实验表明,参数少于100亿的MiniOpt-3B模型在各种优化任务中取得了卓越的求解精度,这表明这种由奖励驱动的强化学习策略是开发紧凑型、专用语言模型的一…