实体 Shangzhe Li

Shangzhe Li

PulseAugur coverage of Shangzhe Li — every cluster mentioning Shangzhe Li across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_80132 · Jun 9 · 04:00

LLM自玩与对抗性模仿学习相关联

研究人员已将大型语言模型的自玩微调方法与其对抗性模仿学习联系起来。他们将微调过程构建为一个最小-最大博弈，统一了自玩模仿和偏好对齐。这一理论框架表明自玩微调会收敛到一个均衡点，从而提出了一种新算法，该算法在稳定性和性能上优于现有方法。