PulseAugur
实时 11:50:53
实体 M_psi

M_psi

PulseAugur coverage of M_psi — every cluster mentioning M_psi across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_98147 ·

    新的OHIRL框架从无奖励感知流中学习 · 跟踪2个来源

    研究人员开发了一种新颖的在线奖励惩罚学习框架OHIRL,专为环境不提供明确奖励或标签的场景设计。OHIRL通过分析转换后果来推断诸如疼痛或错误等感知维度的效价。该框架将下一包预测、残余动力学建模、轨迹评估和策略更新的角色分开。在2x2-XOR、CartPole和Taxi等任务上的实验表明,OHIRL在最优动作选择和奖励符号预测方面能够达到高精度,优于各种对照方法。