Multi-armed bandits for adjudicating documents in pooling-based evaluation of information retrieval systems
PulseAugur coverage of Multi-armed bandits for adjudicating documents in pooling-based evaluation of information retrieval systems — every cluster mentioning Multi-armed bandits for adjudicating documents in pooling-based evaluation of information retrieval systems across labs, papers, and developer communities, ranked by signal.
5 天有情绪数据
-
新算法在有限反馈的在线学习中利用动作相似性
研究人员开发了用于在线学习问题的新算法,这些问题中的动作具有固有的相似性,例如由根树结构表示的动作。这些算法旨在利用这些相似性来提高性能,尤其是在反馈有限的情况下。该研究为标准单点老虎机反馈建立了一个不可能的结果,证明了其无法利用动作相似性。然而,所提出的算法通过适应更丰富的反馈模型,并将总动作数替换为在遗憾界限中具有相似性感知的有效数量,提供了两全其美的保证。
-
新研究探讨利用多臂老虎机问题中的行动相似性
一篇新研究论文探讨了多臂老虎机问题的在线学习策略,其中行动具有固有的相似性,例如共享特征或分层结构。该研究引入了一个根树模型来表示这些行动相似性,并建立了一个理论极限,表明标准的单点老虎机反馈无法有效利用这种相似性。然而,该研究提出了一套统一的算法,可以适应更丰富的反馈模型,包括半老虎机和多点协议,通过结合相似性感知的有效行动数量来实现改进的遗憾界限。
-
新研究探索鲁棒优化和强化学习技术 · 已追踪 6 个来源
几篇新研究论文探索了强化学习和优化中的先进技术,重点关注鲁棒性和生成模型。其中一篇论文引入了一个平稳鲁棒均值场博弈框架,以解决多智能体强化学习中的模型不匹配问题,并建立了具有收敛保证的新算法。另一篇论文提出了生成式鲁棒优化 (GRO),它使用深度生成模型来定义不确定性集,以实现更具表现力和可处理性的优化。此外,还提出了一种名为 SIVE 的新估计器,用于绕过神经网络损失景观中的最小化偏差,提供了一种鲁棒的训练诊断工具。最后,引入了一种…
-
新研究探索具有延迟和有界噪声的最优决策老虎机算法 · 跟踪 5 个来源
研究人员发表了关于老虎机算法的新论文,探索了在不确定性下优化决策的不同方法。一篇论文研究了具有延迟反馈的随机线性老虎机,分析了各种延迟模型如何影响遗憾保证,并将它们与多臂老虎机进行比较。另一项研究侧重于具有有界噪声的随机线性上下文老虎机,提出了一种利用集合成员估计来获得改进遗憾界限的新算法。第三篇论文研究了使用正则化稳定老虎机,推导出精确的遗憾界限和定量中心极限定理,强调了推理有效性与最优遗憾率之间的权衡。
-
多臂老虎机优化深度神经网络的结构化剪枝
研究人员开发了一种新颖的深度神经网络结构化剪枝框架,该框架利用多臂老虎机(MAB)算法来移除整个神经元。该方法将每个神经元视为老虎机问题中的一个“臂”,暂时屏蔽它以衡量对损失函数的影响,然后更新其移除奖励估计。在图像、文本和推理任务上的评估表明,基于MAB的剪枝,特别是使用UCB1和Thompson Sampling策略,可以有效地减小模型尺寸,并且通常优于未剪枝模型和其他剪枝技术。
-
新的贝叶斯框架MINTS简化了序贯决策
研究人员推出MINTS,一个用于不确定性下序贯决策的新贝叶斯框架。这种极简方法仅在最优值位置上设置先验,简化了复杂的结构约束。MINTS为具有均值约束的多臂老虎机提供了近乎最优的遗憾保证,能够适应单峰结构并实现精确的常数。
-
新框架统一采样和优化问题
本文介绍了多臂采样问题,这是一个新的框架,它借鉴了多臂老虎机问题,但侧重于采样而非优化。研究人员定义了遗憾度量并建立了下界,提出了一种接近最优遗憾度的算法。研究结果表明,采样所需的探索比优化少得多,这对神经网络采样器、熵正则化强化学习和RLHF等领域都有影响。