PulseAugur
实时 23:43:37
实体 Hyperfitting

Hyperfitting

PulseAugur coverage of Hyperfitting — every cluster mentioning Hyperfitting across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_43572 ·

    新研究定义了大型语言模型中的“超拟合”,区别于温度缩放

    一篇新的研究论文引入了“超拟合”的概念,即在小型数据集上微调大型语言模型可以出人意料地提高生成质量并减少重复。研究表明,这种效应与简单的温度缩放不同,并且涉及最后一个 Transformer 块内动态的、依赖于上下文的秩重排机制。研究人员还提出了“后期 LoRA”,一种仅针对最后五层进行微调的方法,以用更少的参数更新实现稳健的生成。