实体
Adaptive Data Scheduling
Adaptive Data Scheduling
PulseAugur coverage of Adaptive Data Scheduling — every cluster mentioning Adaptive Data Scheduling across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的RL技术增强LLM推理、安全性和效率 · 跟踪8个来源
研究人员引入了几种新方法来改进用于大型语言模型(LLM)的强化学习(RL),以解决奖励稀疏性、信用分配和效率等挑战。Group-Graph Policy Optimization (G2PO) 将线性轨迹转换为状态转换图,以更好地进行长周期任务中的信用分配。SingGuard 提供了一种自适应策略的多模态安全护栏,用于对话中的安全评估,并能适应不断变化的审核规则。此外,Adaptive Correct-Only Efficiency …
-
New data strategies boost LLM reinforcement learning performance
Researchers have developed new methods to improve reinforcement learning (RL) for large language models (LLMs) by focusing on data scheduling and curation. One approach, Adaptive Data Scheduling (ADS), organizes trainin…