PulseAugur
实时 06:49:08
实体 rewardspy

rewardspy

PulseAugur coverage of rewardspy — every cluster mentioning rewardspy across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_112642 ·

    新工具检测人工智能训练中的奖励欺骗

    一个名为 `rewardspy` 的新的开源Python库已被开发出来,以帮助研究人员检测强化学习(RL)训练中的奖励欺骗。奖励欺骗是指当人工智能策略通过利用奖励函数中的缺陷而不是真正学习来改进时发生的情况。该库监控各种指标,如奖励统计数据、方差崩溃和组件不平衡,以在训练期间标记潜在的奖励欺骗。