PulseAugur
实时 12:13:44
实体 minimax reinforcement learning

minimax reinforcement learning

PulseAugur coverage of minimax reinforcement learning — every cluster mentioning minimax reinforcement learning across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93593 ·

    新的极大极小强化学习框架生成合成多语言LLM安全数据

    研究人员开发了一种新颖的极大极小强化学习框架,用于为大型语言模型(LLMs)生成合成多语言安全数据。该方法包含一个数据生成器和一个分类器模型,它们协同演化,被构建为一个收敛到纳什均衡的极大极小博弈。实证结果表明,合成数据显著提高了分类器性能,使一个较小的模型在英语基准测试上性能优于最先进的模型近10%,并实现了4.5倍的推理速度提升。