PulseAugur
实时 20:20:50

新框架指导LLM层更新以实现高效的预训练

研究人员开发了LayerTracer,一个用于指导大型语言模型层在持续预训练过程中选择性更新的新框架。该方法分析层的表示演变和敏感性,以识别哪些层对于任务执行和稳定性至关重要。实验表明,与全参数微调或反向策略相比,冻结深层而训练浅层在C-Eval和CMMLU等基准测试上能带来更好的性能。 AI

影响 为优化LLM的持续预训练提供了一种低成本、可解释的方法,使资源受限的团队受益。

排序理由 该集群包含一篇学术论文,详细介绍了用于LLM持续预训练的新框架和实验结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 · Yu-Hang Wu, Qin-Yuan Liu, Qiu-Yang Zhao, Bo Jiang, Jiang-Feng Yang, Qing-Wei Cong ·

    Freeze Deep, Train Shallow: Interpretable Layer Allocation for Continued Pre-Training

    arXiv:2605.11416v2 Announce Type: replace Abstract: Selective layer-wise updates are essential for low-cost continued pre-training of Large Language Models (LLMs), yet determining which layers to freeze or train remains an empirical black-box problem due to the lack of interpreta…