研究人员为具有部分损失信息的对抗性多臂老虎机问题开发了新算法。这些算法旨在处理非选择臂以固定、未知概率揭示其损失的情况。所提出的方法即使在不知道损失观察的确切概率的情况下,也能实现接近最优的遗憾界限。 AI
影响 为具有部分反馈的老虎机问题引入了新颖的算法,有可能改进在线学习系统的决策。
排序理由 在 arXiv 上发表的学术论文,详细介绍了针对特定机器学习问题的新算法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →
研究人员为具有部分损失信息的对抗性多臂老虎机问题开发了新算法。这些算法旨在处理非选择臂以固定、未知概率揭示其损失的情况。所提出的方法即使在不知道损失观察的确切概率的情况下,也能实现接近最优的遗憾界限。 AI
影响 为具有部分反馈的老虎机问题引入了新颖的算法,有可能改进在线学习系统的决策。
排序理由 在 arXiv 上发表的学术论文,详细介绍了针对特定机器学习问题的新算法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →
arXiv:2604.25271v1 Announce Type: new Abstract: We consider adversarial multi-armed bandit problems where the learner is allowed to observe losses of a number of arms beside the arm that it actually chose. We study the case where all non-chosen arms reveal their loss with a fixed…
We consider adversarial multi-armed bandit problems where the learner is allowed to observe losses of a number of arms beside the arm that it actually chose. We study the case where all non-chosen arms reveal their loss with a fixed but unknown probability $r$, independently of e…