实体
LinUCB
LinUCB
PulseAugur coverage of LinUCB — every cluster mentioning LinUCB across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的 BITE 框架利用 LLM 裁判偏见来提高分数
研究人员开发了一种新颖的黑盒对抗框架 BITE,该框架利用 LLM 裁判的风格偏见来人为地提高其分数。通过将风格化编辑的选择框定为上下文老虎机问题,BITE 使用 LinUCB 策略来适应性地选择能够最大化裁判分数的编辑,而无需访问模型参数。该框架成功实现了超过 65% 的攻击成功率,并将 9 分制的分数提高了 1-2 分,同时保持了语义等价性并逃避了检测方法,凸显了 LLM 作为裁判范式中的一个重大漏洞。
-
新的 Bandit 算法应对对抗性攻击和复杂应用
研究人员正在探索 Bandit 算法的新前沿,重点关注其在复杂场景中的应用和鲁棒性。一篇论文研究了高维离线 Bandit 上的对抗性攻击,揭示了用于评估生成式 AI 的奖励模型的漏洞。其他研究深入探讨了理论进展,例如方差敏感 Thompson 采样、重试感知 Bandit 的有限时间遗憾分析以及对抗性线性上下文 Bandit 的改进算法。此外,还有研究考察了 Bandit 在潜在状态环境、具有延迟反馈的决斗 Bandit,甚至深度脑刺…