PulseAugur
实时 13:51:32
实体 DecomposeRL

DecomposeRL

PulseAugur coverage of DecomposeRL — every cluster mentioning DecomposeRL across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56175 ·

    DecomposeRL:用于可追溯声明验证的新型人工智能

    研究人员开发了 DecomposeRL,一种新颖的声明验证方法,在准确性和可检查的追踪之间取得平衡。该方法将分解框架化为强化学习策略,使用 GRPO 和多方面奖励系统进行训练。DecomposeRL 可以以完全监督和半监督模式运行,利用未标记的声明。一个包含 5,000 个声明的蒸馏数据集被用来训练一个 7B 参数策略,该策略在各种基准测试中取得了与更大模型和 GPT-4.1-mini 相媲美的性能。