实体 Multi-armed bandits for adjudicating documents in pooling-based evaluation of information retrieval systems

Multi-armed bandits for adjudicating documents in pooling-based evaluation of information retrieval systems

PulseAugur coverage of Multi-armed bandits for adjudicating documents in pooling-based evaluation of information retrieval systems — every cluster mentioning Multi-armed bandits for adjudicating documents in pooling-based evaluation of information retrieval systems across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 7

发布 · 30天

90 天内 0

论文 · 30天

90 天内 7

层级分布 · 90 天

主题

论文 7
其他 7

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

TOOL · CL_114377 · Jun 22 · 14:39

新算法在有限反馈的在线学习中利用动作相似性

研究人员开发了用于在线学习问题的新算法，这些问题中的动作具有固有的相似性，例如由根树结构表示的动作。这些算法旨在利用这些相似性来提高性能，尤其是在反馈有限的情况下。该研究为标准单点老虎机反馈建立了一个不可能的结果，证明了其无法利用动作相似性。然而，所提出的算法通过适应更丰富的反馈模型，并将总动作数替换为在遗憾界限中具有相似性感知的有效数量，提供了两全其美的保证。
TOOL · CL_105193 · Jun 22 · 14:39

新研究探讨利用多臂老虎机问题中的行动相似性

一篇新研究论文探讨了多臂老虎机问题的在线学习策略，其中行动具有固有的相似性，例如共享特征或分层结构。该研究引入了一个根树模型来表示这些行动相似性，并建立了一个理论极限，表明标准的单点老虎机反馈无法有效利用这种相似性。然而，该研究提出了一套统一的算法，可以适应更丰富的反馈模型，包括半老虎机和多点协议，通过结合相似性感知的有效行动数量来实现改进的遗憾界限。
RESEARCH · CL_99689 · Jun 18 · 11:30

新研究探索鲁棒优化和强化学习技术 · 已追踪 6 个来源

几篇新研究论文探索了强化学习和优化中的先进技术，重点关注鲁棒性和生成模型。其中一篇论文引入了一个平稳鲁棒均值场博弈框架，以解决多智能体强化学习中的模型不匹配问题，并建立了具有收敛保证的新算法。另一篇论文提出了生成式鲁棒优化 (GRO)，它使用深度生成模型来定义不确定性集，以实现更具表现力和可处理性的优化。此外，还提出了一种名为 SIVE 的新估计器，用于绕过神经网络损失景观中的最小化偏差，提供了一种鲁棒的训练诊断工具。最后，引入了一种…
RESEARCH · CL_93693 · Jun 15 · 12:48

新研究探索具有延迟和有界噪声的最优决策老虎机算法 · 跟踪 5 个来源

研究人员发表了关于老虎机算法的新论文，探索了在不确定性下优化决策的不同方法。一篇论文研究了具有延迟反馈的随机线性老虎机，分析了各种延迟模型如何影响遗憾保证，并将它们与多臂老虎机进行比较。另一项研究侧重于具有有界噪声的随机线性上下文老虎机，提出了一种利用集合成员估计来获得改进遗憾界限的新算法。第三篇论文研究了使用正则化稳定老虎机，推导出精确的遗憾界限和定量中心极限定理，强调了推理有效性与最优遗憾率之间的权衡。
TOOL · CL_79801 · Jun 9 · 04:00

多臂老虎机优化深度神经网络的结构化剪枝

研究人员开发了一种新颖的深度神经网络结构化剪枝框架，该框架利用多臂老虎机（MAB）算法来移除整个神经元。该方法将每个神经元视为老虎机问题中的一个“臂”，暂时屏蔽它以衡量对损失函数的影响，然后更新其移除奖励估计。在图像、文本和推理任务上的评估表明，基于MAB的剪枝，特别是使用UCB1和Thompson Sampling策略，可以有效地减小模型尺寸，并且通常优于未剪枝模型和其他剪枝技术。
RESEARCH · CL_65255 · Jun 1 · 04:08

新的贝叶斯框架MINTS简化了序贯决策

研究人员推出MINTS，一个用于不确定性下序贯决策的新贝叶斯框架。这种极简方法仅在最优值位置上设置先验，简化了复杂的结构约束。MINTS为具有均值约束的多臂老虎机提供了近乎最优的遗憾保证，能够适应单峰结构并实现精确的常数。
TOOL · CL_30955 · May 14 · 04:00

新框架统一采样和优化问题

本文介绍了多臂采样问题，这是一个新的框架，它借鉴了多臂老虎机问题，但侧重于采样而非优化。研究人员定义了遗憾度量并建立了下界，提出了一种接近最优遗憾度的算法。研究结果表明，采样所需的探索比优化少得多，这对神经网络采样器、熵正则化强化学习和RLHF等领域都有影响。

新算法在有限反馈的在线学习中利用动作相似性

新研究探讨利用多臂老虎机问题中的行动相似性

新研究探索鲁棒优化和强化学习技术 · 已追踪 6 个来源

新研究探索具有延迟和有界噪声的最优决策老虎机算法 · 跟踪 5 个来源

多臂老虎机优化深度神经网络的结构化剪枝

新的贝叶斯框架MINTS简化了序贯决策

新框架统一采样和优化问题