实体 Stackelberg Game

Stackelberg Game

PulseAugur coverage of Stackelberg Game — every cluster mentioning Stackelberg Game across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_178508 · Aug 3 · 04:00

新的AI审计框架模拟了开发者的策略性响应

研究人员开发了一个新的AI系统审计框架，该框架考虑了开发者的策略性响应。提出的方法将审计过程建模为一个双层Stackelberg博弈，其中审计员设定隐私约束，开发者优化其响应。通过考虑开发者在缓解措施上的策略性重新分配，这种方法旨在更好地检测危害，因为如果不考虑这一点，可能会导致某些危害的漏检。
RESEARCH · CL_79549 · Jun 8 · 15:33

新方法增强LLM推理时的对齐

研究人员开发了在推理过程中改进大型语言模型对齐的新方法。一种名为BlendIn的方法使用概率模型混合来整合来自多个模型的知识，通过质量感知加权稳定对齐并弱化不可靠的指导。另一种方法，梯度引导奖励优化（GGRO），利用梯度信号在高度不确定区域注入提示令牌，从而引导生成而非仅仅重新排序。第三种观点将奖励模型优化视为Stackelberg博弈，提出奖励塑造来近似最优模型并提高用户效用，同时减轻奖励操纵。
RESEARCH · CL_06988 · Apr 28 · 04:00

研究人员提出TraceGuard以保护前沿AI模型免受蒸馏攻击

研究人员开发了一种名为TraceGuard的新方法，用于保护专有AI模型免受蒸馏攻击。该方法将反蒸馏视为一个Stackelberg博弈，为毒化推理痕迹以阻碍学生模型学习提供了理论基础。TraceGuard是一种高效的黑盒技术，它毒化对教师模型推理至关重要的句子，旨在保护知识产权和AI安全，同时不会显著降低教师模型的性能。

新的AI审计框架模拟了开发者的策略性响应

新方法增强LLM推理时的对齐

研究人员提出TraceGuard以保护前沿AI模型免受蒸馏攻击