Thompson sampling · PulseAugur

研究发现贝叶斯优化需要最优初始点

一篇新的arXiv论文探讨了贝叶斯优化（BO）所需的最佳初始点数量。研究表明，寻找全局最优值的总成本与初始批次大小（$n_0$）之间存在U形关系，这意味着过少或过多的初始点都会导致资源浪费。这种现象归因于BO在向内聚焦之前倾向于探索超立方体的边界。该研究提出了实际建议，包括在可用时使用多步前瞻BO，在无法调整$n_0$时使用Thompson采样，以及在可以调整时使用更大的$n_0$。

RESEARCH · CL_128397 · Jul 3 · 02:38

新的老虎机算法研究解决了重尾和非平稳问题 · 已追踪 4 个来源

三篇新的研究论文探讨了老虎机算法的进展。一篇论文分析了线性高斯老虎机中 Thompson 采样算法的遗憾，表明了与先验相关的遗憾项和最小最大遗憾项可以解耦。另一篇论文提出了一种统一的误设减少方法，用于处理具有特定轮次可行决策集的非平稳线性老虎机，实现了最优的动态遗憾依赖。第三篇论文解决了具有重尾奖励的批量多臂老虎机问题，揭示了在某些情况下，更重的尾部实际上可能需要更少的批量即可获得接近最优的遗憾。

TOOL · CL_115589 · Jun 25 · 00:00

AI 机器人凭借新颖的强化学习策略赢得服装折叠挑战赛

一种新颖的强化学习方法在 LeHome Challenge 2026 的线上和线下比赛中分别获得第一名和第二名，该比赛专注于双臂服装折叠。该系统采用了一种视觉-语言-动作策略，在一个网络中集成了成功率估计和优势计算，以优化效率和实时适应性。关键创新包括异步分布式训练管道、使用 Thompson 采样进行的推理时超参数优化，以及包含类似 DAgger 的数据收集的仿真到现实迁移策略。

RESEARCH · CL_104670 · Jun 19 · 21:18

新的 Thompson 采样方法解决了非平稳和私有的上下文赌博机问题

两篇新研究论文介绍了 Thompson 采样在上下文赌博机方面的新方法。一篇题为“面向非平稳上下文赌博机的流校正 Thompson 采样”的论文提出了一种贝叶斯方法，通过基于显式漂移模型进行校正和重新加权来重用历史数据，其性能优于标准的遗忘基线。第二篇论文“AdaPrivate-TS：具有隐私放大的上下文赌博机的私有 Thompson 采样”提出了一种差分私有算法，该算法将 Thompson Sampling 与批处理 zCDP 组合…

TOOL · CL_100128 · Jun 19 · 04:00

LLM 框架生成可验证的 PCB 示意图，无需单元测试

研究人员开发了 PCBSchemaGen，一个旨在使大型语言模型 (LLM) 能够为印刷电路板 (PCB) 示意图设计生成可验证代码的新型框架。与依赖单元测试的典型代码合成基准不同，PCBSchemaGen 使用从集成电路数据表中提取的特定领域模式和连续奖励验证器来确保正确性。这种方法甚至可以让像 Gemma-4-31B 这样的开放权重 31B 模型在 PCBBench 任务上达到 81.3% 的成功率，证明了其在缺乏传统测试预言机的…

TOOL · CL_98452 · Jun 18 · 09:49

检测沉默的LLM退化：新方法涌现

开发人员正在探索检测大型语言模型（LLM）沉默退化的方法，即使API调用返回成功的状态码，也可能发生这种退化。这种退化可能表现为准确性、指令遵循或工具调用能力的下降，对代理系统造成尤其严重的影响。正在开发的解决方案包括自适应窗口技术（如ADWIN）和外部监控服务，这些服务使用固定的提示集和跨模型比较来识别模型基线性能的偏差。

TOOL · CL_95934 · Jun 17 · 04:00

Optimism Stabilizes Thompson Sampling for Adaptive Inference

一篇新的arXiv论文介绍了一种名为“乐观主义”的方法来稳定Thompson采样，这是一种广泛用于多臂老虎机问题自适应推理的技术。由Han Zhong领导的研究表明，这种“乐观主义”机制确保了臂特定样本量集中在确定性尺度周围，从而允许渐近有效的Wald推理。这种稳定是通过新的获胜图和Lyapunov漂移技术实现的，解决了先前关于将此方法扩展到K臂老虎机问题的开放性问题。

TOOL · CL_93827 · Jun 16 · 04:00

新分析表明线性集成采样可媲美汤普森采样

研究人员发表了对随机线性 bandits 中线性集成采样 (ES) 的新分析，证明了其在标准高斯扰动下的有效性。研究表明，ES 可以实现 \tilde O(d^{3/2}\sqrt n) 的遗憾值，集成大小为 m=\Theta(d\log n)，其性能可媲美汤普森采样，同时计算成本相当。新颖的证明技术涉及将分析简化为独立布朗运动的时间均匀超额问题，为线性 bandits 中的随机探索提供了新视角。

TOOL · CL_79801 · Jun 9 · 04:00

多臂老虎机优化深度神经网络的结构化剪枝

研究人员开发了一种新颖的深度神经网络结构化剪枝框架，该框架利用多臂老虎机（MAB）算法来移除整个神经元。该方法将每个神经元视为老虎机问题中的一个“臂”，暂时屏蔽它以衡量对损失函数的影响，然后更新其移除奖励估计。在图像、文本和推理任务上的评估表明，基于MAB的剪枝，特别是使用UCB1和Thompson Sampling策略，可以有效地减小模型尺寸，并且通常优于未剪枝模型和其他剪枝技术。

RESEARCH · CL_79470 · Jun 8 · 08:26

汤普森采样算法在风险规避型和高斯过程老虎机问题上取得进展

两篇新研究论文探讨了汤普森采样在老虎机问题上的进展。第一篇论文介绍了一种用于具有次高斯奖励的风险规避型老虎机问题的算法，该算法对各种风险函数实现了渐近最优性。第二篇论文提出了联合先验选择和高斯过程老虎机问题遗憾最小化的算法，并通过理论分析和实验证明了其有效性。

RESEARCH · CL_65255 · Jun 1 · 04:08

新的贝叶斯框架MINTS简化了序贯决策

研究人员推出MINTS，一个用于不确定性下序贯决策的新贝叶斯框架。这种极简方法仅在最优值位置上设置先验，简化了复杂的结构约束。MINTS为具有均值约束的多臂老虎机提供了近乎最优的遗憾保证，能够适应单峰结构并实现精确的常数。

TOOL · CL_56460 · May 28 · 04:00

Thompson Sampling 被视为在线优化

一篇新论文将广泛使用的 bandit 算法 Thompson Sampling 重塑为在线优化问题。这种视角揭示了后验采样如何通过模仿 Bellman 最优策略并由残余不确定性进行正则化来平衡探索与利用。该研究提供了对 Thompson Sampling 动态的更深入理解以及一种改进策略的方法。

RESEARCH · CL_51366 · May 26 · 04:00

新的 Bandit 算法应对对抗性攻击和复杂应用

研究人员正在探索 Bandit 算法的新前沿，重点关注其在复杂场景中的应用和鲁棒性。一篇论文研究了高维离线 Bandit 上的对抗性攻击，揭示了用于评估生成式 AI 的奖励模型的漏洞。其他研究深入探讨了理论进展，例如方差敏感 Thompson 采样、重试感知 Bandit 的有限时间遗憾分析以及对抗性线性上下文 Bandit 的改进算法。此外，还有研究考察了 Bandit 在潜在状态环境、具有延迟反馈的决斗 Bandit，甚至深度脑刺…

TOOL · CL_40008 · May 20 · 04:00

新算法在实验中平衡用户奖励与统计准确性

研究人员开发了一种名为 TS-PostDiff 的新算法，旨在改善在线实验中用户收益与统计准确性之间的平衡。均匀随机分配等传统方法在统计上是可靠的，但适应速度慢；而 Thompson Sampling 等多臂老虎机算法可以快速优化用户参与度，但可能引入统计偏差。TS-PostDiff 智能地融合了这些方法，在差异较大时使用 Thompson Sampling，在差异较小时恢复到均匀随机分配，从而减少误报并提高统计功效。

RESEARCH · CL_38346 · May 18 · 15:01

新研究推动上下文老虎机算法在动态复杂环境中的应用

研究人员正在探索上下文老虎机问题的先进技术，重点是改进遗憾界限和处理动态环境。一篇论文介绍了一种可重试的老虎机算法，旨在优化多次尝试中的最佳结果，并证明了该目标的首个次线性遗憾界限。另一项研究提出了主动上下文选择以提高上下文老虎机中的简单遗憾，显示出比被动采样显著的改进。此外，一种名为 PONA 的新方法被提出用于离线上下文老虎机，该方法通过利用动作特征可以有效地学习和选择新动作，其性能优于受限于预定义动作集的现有方法。最后，一种名为…

RESEARCH · CL_30607 · May 13 · 10:03

新的“Delight-gated exploration”算法优化了巨大的动作空间

研究人员推出了一种名为Delight-gated exploration (DE) 的新算法，旨在优化具有巨大动作空间的场景中的决策制定。DE根据其潜在的“delight”（一种结合了预期改进和惊喜的指标）来优先考虑探索性动作，而不是广泛搜索直到不确定性消除。这种方法比ε-greedy等传统方法更有效，尤其是在探索预算有限的情况下。该算法在各种bandit和MDP问题上都表现出了一致的性能，与Thompson Sampling和ε-g…

TOOL · CL_27597 · May 11 · 09:50

新算法Anchor-TS改进了离线到在线学习

研究人员开发了一种名为Sample-Mean Anchored Thompson Sampling (Anchor-TS)的新算法，以改进离线到在线学习。该方法通过使用一种新颖的基于中位数的锚定规则，解决了离线和在线数据之间分布偏移的挑战。Anchor-TS旨在通过纠正偏差并安全地利用离线信息来加速在线学习，提供更准确的估计，并具有理论保证和实验验证。

RESEARCH · CL_22144 · May 8 · 04:00

新方法提升LLM代码生成效率与理论

研究人员开发了提高大型语言模型（LLM）代码生成效率的新方法。其中一种方法是“试后规划”（Planning-after-Trial, PaT），它仅在初始生成尝试失败时才调用规划器，从而显著降低了计算成本。另一项研究为面向测试的代码生成提供了理论框架，分析了反向提示（backprompting）等策略，并提出了改进任务描述的方法。

TOOL · CL_21746 · May 7 · 17:27

DARTS方法优化预算受限序贯实验的协变量采集

研究人员开发了DARTS（动态自适应重随机化通过汤普森采样），一种用于预算受限序贯实验中优化协变量采集的新方法。该方法将预处理数据收集过程视为因果推断中的序贯优化问题。DARTS采用汤普森采样器识别批次中最具预后意义的协变量，然后指导重随机化和回归调整，以最小化处理效应方差。

TOOL · CL_20572 · May 7 · 04:00

新算法解决了网络干扰下的可扩展策略学习问题

研究人员开发了一种新的 Thompson 采样算法，旨在优化动态网络中发生干扰时的策略影响。该算法解决了现有方法在超过十五个单元的网络中存在的扩展性限制。新方法通过每轮观察一个新网络，实现了大规模网络系统中的策略优化，并在模拟中显示出比先前技术更快的学习速度和更优越的性能。