实体 Gradient-based Reinforcement Learning

Gradient-based Reinforcement Learning

PulseAugur coverage of Gradient-based Reinforcement Learning — every cluster mentioning Gradient-based Reinforcement Learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_29395 · May 12 · 14:46

LoRA parameter placement impacts GRPO fine-tuning, not SFT

Researchers have investigated the parameter placement problem within Low-Rank Adaptation (LoRA) for fine-tuning large language models. Their study reveals that for Supervised Fine-Tuning (SFT), the specific placement of…

LoRA parameter placement impacts GRPO fine-tuning, not SFT