实体
Yizhou Liu
Yizhou Liu
PulseAugur coverage of Yizhou Liu — every cluster mentioning Yizhou Liu across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新研究探索用于LLM效率的深度扩展
两篇新研究论文探讨了通过优化大型语言模型深度来提高其效率的方法。第一篇论文介绍了“零/单层渐进式训练”,它可以显著降低计算成本,在GPT-2等模型上节省高达80%的计算量,并在Llama3和DeepSeekV3上显示出显著的效率提升。第二篇论文提出,由于功能相似的层,LLM性能与深度成反比,并提出架构创新以鼓励更具组合性的深度使用,从而提高效率。
-
论文用通用1/3时间缩放解释LLM训练瓶颈
研究人员在峰值概率分布的学习过程中发现了一种通用的三分之一时间缩放现象,这种现象在大型语言模型中也有观察到。这种行为源于softmax和交叉熵的使用,造成了基本的优化瓶颈,导致损失和梯度的收敛速度呈幂律下降。这些发现为观察到的神经缩放提供了机制性解释,并为提高LLM训练效率指明了方向。