实体 FSA-GRPO

FSA-GRPO

PulseAugur coverage of FSA-GRPO — every cluster mentioning FSA-GRPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_68293 · Jun 3 · 04:00

听觉大语言模型通过新的强化学习技术学习少样本适应

研究人员开发了FSA-GRPO，一种新的强化学习技术，以改进听觉大语言模型利用少样本演示的方式。该方法通过鼓励模型利用提供的示例来训练模型更好地适应低资源任务，例如识别儿童语音。即使在缺乏领域内数据的情况下，该方法也显示出有效性，其表现优于在相关的领域外数据上进行直接微调。