PulseAugur
实时 02:52:09
实体 Themis

Themis

PulseAugur coverage of Themis — every cluster mentioning Themis across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
时间线
  1. 2026-06-23 research_milestone Researchers published a paper introducing Themis, an explainable AI-enabled framework for Reinforcement Learning with Human Feedback. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_107751 ·

    Themis框架结合AI可解释性与人类反馈,实现更安全的RL

    研究人员推出Themis,一个旨在通过整合可解释性与人类反馈来增强强化学习(RL)系统安全性和透明度的新型框架。该框架旨在通过提供统一的方法来解决防止RL中不期望行为的挑战,同时实现透明度和对齐。Themis支持广泛的环境,并已证明其能够训练出使用人类偏好后表现与真实奖励信号相当或更优的奖励模型,同时还提供了一个可扩展的云平台用于反馈收集和实验管理。