实体 Offline Reinforcement Learning

Offline Reinforcement Learning

PulseAugur coverage of Offline Reinforcement Learning — every cluster mentioning Offline Reinforcement Learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 10

发布 · 30天

90 天内 0

论文 · 30天

90 天内 10

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

RESEARCH · CL_128341 · Jul 6 · 17:53

新的FORE方法改进了离线强化学习评估

研究人员引入了拟合占用率评估（FORE），一种用于离线强化学习中估计占用率的新颖方法。该技术通过伴随贝尔曼递归来表征折扣占用率，并在每次迭代中解决密度比目标。FORE的关键创新在于其简化的近似条件，仅需要折扣占用率本身的实现性，而不是像贝尔曼完备性那样更复杂的条件。这种方法能够直接进行价值估计和双重鲁棒估计，为离线策略评估提供了更鲁棒的方法。
RESEARCH · CL_123086 · Jul 2 · 15:05

AI研究探索强化学习和自然语言处理中的结构泛化 · 跟踪2个来源

两篇新研究论文探讨了AI模型泛化的不同方面。第一篇论文聚焦于离线强化学习，认为数据集中悲观主义的结构比数据量本身对泛化更为关键。它提出，通过一致性损失应用数据增强，可以通过强制执行对称价值函数来改善泛化。第二篇论文研究了自然语言处理中的结构泛化，提出了一种编码方向性的新解析器。该解析器使用BERT-base编码器，在特定的方向性任务上优于先前最先进的模型，表明整合方向性信息是某些类型语言泛化的关键。
TOOL · CL_100180 · Jun 19 · 04:00

新数据集Insulin4RL支持不规则临床数据的离线强化学习

研究人员推出Insulin4RL，一个专为医疗保健领域离线强化学习设计的新数据集。该数据集源自MIMIC-IV，包含来自12,209名需要胰岛素输注滴定调整的重症监护室患者的超过375,000个决策。与使用固定时间间隔的先前数据集不同，Insulin4RL具有自然不规则的输入和动作，旨在提高回顾性模型评估的泛化能力。研究人员为未来的研究提供了基线性能指标和标准化的评估协议。
TOOL · CL_80057 · Jun 9 · 04:00

新框架使用反事实流优化离线强化学习轨迹

研究人员引入了一个名为反事实输运流（counterfactual transport flows）的离线强化学习新框架。该方法旨在仅使用记录的历史数据来改进决策策略，而不会超出可用信息的范围。该方法通过在潜在空间中寻找具有更高反馈的相似轨迹来构建局部偏好对，然后指导一个保守的优化过程。这使得在保持原始行为和应用更强改进之间进行可控的权衡，并在 D4RL 基准测试上得到了验证。
TOOL · CL_79775 · Jun 9 · 04:00

新的基准测试标准了核聚变等离子体控制的离线强化学习

研究人员推出了RL4F，这是一个旨在标准化核聚变等离子体控制中离线强化学习评估的新基准测试。该基准测试利用DIII-D托卡马克的历史数据创建了真实的控制任务，解决了在线实验成本高昂且风险大的挑战。研究发现，离线基于模型的强化学习方法总体表现最佳，但没有一种方法在所有任务中都表现出色，这强调了在复杂的聚变控制场景中进行有效动力学建模的必要性。代码库、数据集和评估框架已发布，以鼓励在聚变控制和离线强化学习算法开发领域进行进一步研究。
TOOL · CL_58992 · May 29 · 04:00

新的TrojanTO攻击针对强化学习中的轨迹优化模型

研究人员开发了TrojanTO，这是一种针对离线强化学习中使用的轨迹优化（TO）模型执行动作级后门攻击的新颖方法。与之前的奖励操纵攻击不同，TrojanTO针对TO模型的序列建模特性，并解决了高维动作空间带来的挑战。该攻击通过交替训练增强触发器-动作连接，并通过轨迹过滤进行精确投毒以实现隐蔽性，在低投毒预算下实现了有效性。
RESEARCH · CL_29303 · May 12 · 17:05

新的自举法增强了离线强化学习分析

研究人员开发了一种新的基于模型的受控马尔可夫链自举法，特别适用于数据生成策略未知的离线强化学习场景。该技术为转移估计器建立了分布一致性，并扩展到策略评估和恢复，为价值函数和Q函数提供渐近有效的置信区间。在RiverSwim问题上的实验结果表明，与现有方法相比，所提出的置信区间在有限数据下提供了更好的校准和覆盖率。
TOOL · CL_21970 · May 8 · 04:00

新的ME-AM框架通过熵最大化增强离线强化学习

研究人员引入了最大熵伴随匹配（ME-AM），一个旨在改进离线强化学习的新框架。该方法通过结合熵最大化和混合行为先验，解决了现有方法中的局限性，如流行度偏差和支持绑定。ME-AM旨在使智能体能够更有效地从离线数据集中学习最优策略，即使在低密度区域也能学习，并探索分布外区域以获得更高奖励。
RESEARCH · CL_21748 · May 7 · 16:58

新的Q-Ising方法优化网络上的动态治疗分配

研究人员开发了Q-Ising，一种用于网络中动态治疗分配的新型三阶段流程。该方法将网络结构与动态治疗策略相结合，解决了现有方法的局限性。Q-Ising使用贝叶斯动态Ising模型估计网络采纳动态，用潜在状态增强治疗历史，并通过离线强化学习学习动态策略。该方法量化了动态决策中的不确定性，并提供了可解释的溢出效应估计，在小额信贷网络数据中表现优于静态基准。
TOOL · CL_16081 · May 5 · 04:00

新的AdamO优化器增强了离线强化学习的稳定性和性能

研究人员推出了一种名为AdamO的新型优化器，旨在增强离线强化学习的稳定性。该优化器解决了“崩溃”问题，即时序差分更新中的错误可能导致Q值极端且不可用。AdamO通过引入正交约束来防止TD误差的放大，理论上保证了任务安全，同时保持了Adam的连续时间耗散动力学。实证结果表明，当与现有基线集成时，AdamO在各种离线强化学习基准测试中提高了稳定性和性能。

新的FORE方法改进了离线强化学习评估

AI研究探索强化学习和自然语言处理中的结构泛化 · 跟踪2个来源

新数据集Insulin4RL支持不规则临床数据的离线强化学习

新框架使用反事实流优化离线强化学习轨迹

新的基准测试标准了核聚变等离子体控制的离线强化学习

新的TrojanTO攻击针对强化学习中的轨迹优化模型

新的自举法增强了离线强化学习分析

新的ME-AM框架通过熵最大化增强离线强化学习

新的Q-Ising方法优化网络上的动态治疗分配

新的AdamO优化器增强了离线强化学习的稳定性和性能