English(EN) Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima

Nexus 优化器通过关注公共最小值来提高 LLM 泛化能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员开发了一种名为 Nexus 的新优化技术，旨在提高大型语言模型 (LLM) 的下游泛化能力。与仅关注最小化总预训练损失的标准优化器不同，Nexus 通过最大化梯度相似性来鼓励模型在不同数据源之间收敛到一组公共最小值。这种方法在下游性能方面显示出显著的改进，包括在复杂推理任务上的准确性提升，即使在达到与传统方法相同的预训练损失的情况下也是如此。研究结果表明，模型收敛的几何特性对于实现更好的泛化至关重要，这挑战了仅依赖预训练损失进行模型评估的做法。 AI

影响这项研究通过关注最小化预训练损失之外的优化策略，为提高 LLM 性能开辟了新途径，有望为复杂任务带来更强大的模型。

排序理由该集群描述了一篇关于大型语言模型新型优化技术的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Huanran Chen, Huaqing Zhang, Xiao Li, Yinpeng Dong, Ke Shen, Jun Zhu · 2026-05-28 04:00

Nexus：相同的预训练损失，通过公共最小值实现更好的下游泛化

arXiv:2604.09258v2 Announce Type: replace Abstract: The foundational capabilities of large language models are acquired during pretraining on internet-scale, highly heterogeneous data mixtures. In this work, we investigate an interesting geometric question regarding the converged…

报道来源 [1]

Nexus：相同的预训练损失，通过公共最小值实现更好的下游泛化

相关实体

相关话题