PulseAugur
实时 13:55:04
实体 Rodney Lafuente-Mercado

Rodney Lafuente-Mercado

PulseAugur coverage of Rodney Lafuente-Mercado — every cluster mentioning Rodney Lafuente-Mercado across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_65471 ·

    新的 ARCA 方法改进了 LLM 在微调中的信用分配

    研究人员推出了一种名为适配器-残差信用分配(ARCA)的新方法,用于在语言模型强化学习中分配 Token 的信用。ARCA 解决了参数高效微调(如 LoRA)中的一种失败模式,在这种模式下,标准的信用信号可能会退化。ARCA 不依赖于输出分布的变化,而是衡量适配器对模型隐藏状态的实际影响。这种方法不需要额外的学习组件,并在 MATH 数据集和 Qwen3-1.7B 的实验中取得了具有竞争力的结果。