PulseAugur
实时 13:55:27
实体 Preference-Based Self-Distillation

Preference-Based Self-Distillation

PulseAugur coverage of Preference-Based Self-Distillation — every cluster mentioning Preference-Based Self-Distillation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_20433 ·

    新的自蒸馏方法增强了大型语言模型的推理能力和训练稳定性

    两篇新论文探讨了用于大型语言模型的先进自蒸馏技术,旨在提高推理能力和效率。第一篇论文介绍了“Power Distribution Bridges”,它连接了采样、自奖励强化学习和自蒸馏,表明功率分布可以优化 KL 正则化强化学习并实现一种新的离线蒸馏形式。第二篇论文提出了“基于偏好的自蒸馏”(PBSD),超越了简单的 KL 匹配,采用了一种奖励正则化目标来优化偏好差距,从而提高了训练稳定性和在推理及工具使用基准测试上的性能。