实体 Dgpo

Dgpo

PulseAugur coverage of Dgpo — every cluster mentioning Dgpo across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_28310 · May 11 · 17:10

New DGPO framework enhances LLM alignment and reasoning diversity

Researchers have introduced Directional-Groupwise Preference Optimization (DGPO), a new framework designed to improve the alignment and reasoning diversity of large language models. DGPO aggregates supervision signals a…
RESEARCH · CL_18799 · Apr 28 · 04:00

新研究探讨AI贡献度衡量、强化学习优化及OOD检测

研究人员开发了CoTrace框架，用于衡量和揭示人机协作中的目标级贡献，发现虽然AI在整体目标塑造中所占比例较小，但它对具体需求和间接影响有显著贡献。此外，一种名为DGPO的新方法旨在通过解决复杂推理任务中的粗粒度信用分配问题来改进LLM的强化学习。同时，一项关于乌克兰语熵的研究提供了上限并将其与LLM性能进行比较，另一篇论文则探讨了使用稀疏自动编码器进行视觉Transformer的分布外（OOD）检测。