实体 minimax reinforcement learning

minimax reinforcement learning

PulseAugur coverage of minimax reinforcement learning — every cluster mentioning minimax reinforcement learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_93593 · Jun 16 · 04:00

新的极大极小强化学习框架生成合成多语言LLM安全数据

研究人员开发了一种新颖的极大极小强化学习框架，用于为大型语言模型（LLMs）生成合成多语言安全数据。该方法包含一个数据生成器和一个分类器模型，它们协同演化，被构建为一个收敛到纳什均衡的极大极小博弈。实证结果表明，合成数据显著提高了分类器性能，使一个较小的模型在英语基准测试上性能优于最先进的模型近10%，并实现了4.5倍的推理速度提升。

新的极大极小强化学习框架生成合成多语言LLM安全数据