实体
function approximation
function approximation
PulseAugur coverage of function approximation — every cluster mentioning function approximation across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的 FQE 和 FQI 方法绕过 Bellman 完全性以实现稳定性
研究人员开发了新的拟合 Q 评估 (FQE) 和软拟合 Q 迭代 (soft FQI) 方法,这些方法不需要 Bellman 完全性,而 Bellman 完全性在使用函数逼近时常常无法满足。所提出的技术,即静态加权 FQE 和静态重加权 soft FQI,通过重新加权回归步骤以匹配目标策略的静态分布来解决不稳定性问题。这些方法旨在提高强化学习的离策略评估的稳定性和减少值误差。
-
新研究推动了对抗性模仿学习的理论与实践
两篇新论文探讨了对抗性模仿学习(AIL)的理论基础,这是一种使用神经网络从专家演示中学习的技术。第一篇论文介绍了OPT-AIL,一个旨在通过实现高效的在线学习和通用函数逼近来弥合AIL理论与实践之间差距的框架。第二篇论文分析了AIL在低样本量下的有效性,解释了它如何用最少的专家数据实现强大的性能,并在长规划视野中保持这种性能。