实体
Andrew Jacobsen
Andrew Jacobsen
PulseAugur coverage of Andrew Jacobsen — every cluster mentioning Andrew Jacobsen across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
AI代理应对时间遗憾和动态优化挑战
两篇新研究论文探讨了改进AI代理决策和学习的先进方法。第一篇论文“Trivium”将时间遗憾作为因果记忆控制器的关键目标,旨在比基于结果的方法更有效地记录和纠正错误。第二篇论文“无参数动态遗憾”提出了一种新颖的在线凸优化算法,该算法处理时变移动成本、延迟反馈和记忆,从而实现了改进的动态遗憾界限。
-
新的 Bandit 算法应对对抗性攻击和复杂应用
研究人员正在探索 Bandit 算法的新前沿,重点关注其在复杂场景中的应用和鲁棒性。一篇论文研究了高维离线 Bandit 上的对抗性攻击,揭示了用于评估生成式 AI 的奖励模型的漏洞。其他研究深入探讨了理论进展,例如方差敏感 Thompson 采样、重试感知 Bandit 的有限时间遗憾分析以及对抗性线性上下文 Bandit 的改进算法。此外,还有研究考察了 Bandit 在潜在状态环境、具有延迟反馈的决斗 Bandit,甚至深度脑刺…