新的 TD(0) 算法通过单一步长实现鲁棒且快速的收敛

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-23 13:37

研究人员开发了一种新的线性 TD(0) 算法方法，该方法使用单一的步长调度，无需预先了解曲率参数。这种方法为算法的稳定性和收敛性提供了高概率保证。新的步长调度同时实现了鲁棒的、无曲率的速率和快速的、依赖曲率的速率，为马尔可夫环境中的学习提供了更有效、更稳定的解决方案。 AI

影响这项研究为马尔可夫环境中的学习提供了一种更稳定、更有效的方法，有可能改进强化学习应用。

排序理由该集群包含一篇详细介绍机器学习新算法方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv stat.ML TIER_1 English(EN) · Wei-Cheng Lee, Francesco Orabona · 2026-06-25 04:00

A Single Stepsize Suffices for Unprojected Linear TD(0): Simultaneous Robust and Fast Rates via Polyak--Ruppert Averaging

arXiv:2606.24981v1 Announce Type: cross Abstract: We study linear TD(0) under Markovian sampling, where data are generated along a single trajectory. We provide high-probability guarantees for a plain unprojected TD(0) algorithm with Polyak-Ruppert (PR) averaging, using a single …
arXiv stat.ML TIER_1 English(EN) · Francesco Orabona · 2026-06-23 13:37

A Single Stepsize Suffices for Unprojected Linear TD(0): Simultaneous Robust and Fast Rates via Polyak--Ruppert Averaging

We study linear TD(0) under Markovian sampling, where data are generated along a single trajectory. We provide high-probability guarantees for a plain unprojected TD(0) algorithm with Polyak-Ruppert (PR) averaging, using a single stepsize schedule $η_t \propto \frac{1}{τ_{\mathrm…