研究人员开发了 DecomposeRL,一种新颖的声明验证方法,在准确性和可检查的追踪之间取得平衡。该方法将分解框架化为强化学习策略,使用 GRPO 和多方面奖励系统进行训练。DecomposeRL 可以以完全监督和半监督模式运行,利用未标记的声明。一个包含 5,000 个声明的蒸馏数据集被用来训练一个 7B 参数策略,该策略在各种基准测试中取得了与更大模型和 GPT-4.1-mini 相媲美的性能。 AI
影响 引入了一种新的 AI 辅助声明验证方法,该方法提供可检查的追踪,有可能提高 AI 生成内容的信任度和透明度。
排序理由 这是一篇详细介绍声明验证新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →