实体
Stackelberg Game
Stackelberg Game
PulseAugur coverage of Stackelberg Game — every cluster mentioning Stackelberg Game across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新方法增强LLM推理时的对齐
研究人员开发了在推理过程中改进大型语言模型对齐的新方法。一种名为BlendIn的方法使用概率模型混合来整合来自多个模型的知识,通过质量感知加权稳定对齐并弱化不可靠的指导。另一种方法,梯度引导奖励优化(GGRO),利用梯度信号在高度不确定区域注入提示令牌,从而引导生成而非仅仅重新排序。第三种观点将奖励模型优化视为Stackelberg博弈,提出奖励塑造来近似最优模型并提高用户效用,同时减轻奖励操纵。
-
研究人员提出TraceGuard以保护前沿AI模型免受蒸馏攻击
研究人员开发了一种名为TraceGuard的新方法,用于保护专有AI模型免受蒸馏攻击。该方法将反蒸馏视为一个Stackelberg博弈,为毒化推理痕迹以阻碍学生模型学习提供了理论基础。TraceGuard是一种高效的黑盒技术,它毒化对教师模型推理至关重要的句子,旨在保护知识产权和AI安全,同时不会显著降低教师模型的性能。