实体 LinUCB

LinUCB

PulseAugur coverage of LinUCB — every cluster mentioning LinUCB across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_115273 · Jun 26 · 10:07

新方法通过图约简和离线学习增强上下文老虎机算法 · 跟踪3个来源

研究人员开发了新的上下文老虎机（contextual bandits）方法，这是一种专注于顺序决策的机器学习问题。一种名为GraphDR-LinUCB的方法利用图降维技术，通过将臂特征投影到谱子空间来提高推荐和广告系统的性能。该方法实现了$\wtO(k\sqrt{T})$的遗憾界限，在多个真实数据集上显著优于全维方法和其他图感知技术。另一个框架，离线估计到决策（Offline Estimation to Decisions, OE2D…
TOOL · CL_105065 · Jun 21 · 18:57

新框架增强了对错误指定的上下文老虎机模型的统计推断

一篇新研究论文解决了上下文老虎机算法中的统计推断挑战，特别是在结果模型被错误指定的情况下。作者指出，像LinUCB这样的标准算法在这种情况下可能导致估计量不稳定和推断无效。为了解决这个问题，他们提出了一种逆概率加权的Z估计框架，该框架在称为比例逆倾向收敛的条件下确保了一致性和渐近正态性。该框架在模拟和实际应用中被证明能提供可靠的覆盖范围和具有竞争力的性能。
TOOL · CL_98015 · Jun 18 · 04:00

新的强化学习框架增强了多燃料发动机的燃烧控制

研究人员开发了一个新的强化学习框架，以改进多燃料压燃发动机的燃烧相位控制。该系统解决了燃料反应活性不确定和时变的问题，燃料反应活性通过十六烷值（CN）量化，这使得精确控制变得复杂。所提出的框架利用门控循环单元（GRU）从燃烧历史中学习燃料反应活性的紧凑表示，使控制策略能够基于此估算信号做出决策，而不是依赖于一个预知的CN值。这种方法旨在防止训练-部署不一致，并实现稳定的CA50调节，即使在CN快速变化的情况下也能实现低跟踪误差。
TOOL · CL_53666 · May 27 · 04:00

新的 BITE 框架利用 LLM 裁判偏见来提高分数

研究人员开发了一种新颖的黑盒对抗框架 BITE，该框架利用 LLM 裁判的风格偏见来人为地提高其分数。通过将风格化编辑的选择框定为上下文老虎机问题，BITE 使用 LinUCB 策略来适应性地选择能够最大化裁判分数的编辑，而无需访问模型参数。该框架成功实现了超过 65% 的攻击成功率，并将 9 分制的分数提高了 1-2 分，同时保持了语义等价性并逃避了检测方法，凸显了 LLM 作为裁判范式中的一个重大漏洞。
RESEARCH · CL_51366 · May 26 · 04:00

新的 Bandit 算法应对对抗性攻击和复杂应用

研究人员正在探索 Bandit 算法的新前沿，重点关注其在复杂场景中的应用和鲁棒性。一篇论文研究了高维离线 Bandit 上的对抗性攻击，揭示了用于评估生成式 AI 的奖励模型的漏洞。其他研究深入探讨了理论进展，例如方差敏感 Thompson 采样、重试感知 Bandit 的有限时间遗憾分析以及对抗性线性上下文 Bandit 的改进算法。此外，还有研究考察了 Bandit 在潜在状态环境、具有延迟反馈的决斗 Bandit，甚至深度脑刺…

新方法通过图约简和离线学习增强上下文老虎机算法 · 跟踪3个来源

新框架增强了对错误指定的上下文老虎机模型的统计推断

新的强化学习框架增强了多燃料发动机的燃烧控制

新的 BITE 框架利用 LLM 裁判偏见来提高分数

新的 Bandit 算法应对对抗性攻击和复杂应用