PulseAugur
实时 14:41:57
实体 DataPRM

DataPRM

PulseAugur coverage of DataPRM — every cluster mentioning DataPRM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06279 ·

    DataPRM 通过奖励科学过程增强 LLM 数据分析能力

    研究人员开发了 DataPRM,这是一种新的过程奖励模型,旨在提高 AI 代理在动态数据分析任务中的性能。与以往难以处理的无声错误和探索性操作的模型不同,DataPRM 可以主动验证中间状态,并区分可纠正和不可挽回的错误。该方法经过 8,000 多个实例的训练,在 ScienceAgentBench 和 DABStep 等基准测试中显著增强了下游策略 LLM,证明了其在监督复杂数据分析方面的有效性。