PulseAugur
实时 09:06:37
实体 Dikshant Shehmar

Dikshant Shehmar

PulseAugur coverage of Dikshant Shehmar — every cluster mentioning Dikshant Shehmar across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_68522 ·

    新的拉普拉斯表示增强了强化学习规划

    研究人员为决策时规划(ALPS)引入了拉普拉斯表示,这是一种专为基于模型的强化学习设计的新型分层规划算法。ALPS 利用拉普拉斯表示来捕捉多个时间尺度的状态空间距离,有效地将长时域问题分解为子目标并减少累积误差。该算法在 OGBench 基准测试的离线目标条件强化学习任务上表现出色,优于先前占主导地位的无模型方法。