研究人员开发了 Randomized YaRN,这是一种新颖的训练方法,旨在增强大型语言模型 (LLM) 在处理比初始训练长度长得多的文本序列时的泛化能力。该技术结合了基于 YaRN 的位置外插和随机位置编码以及长度课程。通过在短上下文训练期间也让模型接触分布外的位置表示,Randomized YaRN 在 BABILong 和 MRCR 等长上下文推理基准测试中表现出改进的性能,尤其是在远超训练数据的长度下。 AI
影响 提高了 LLM 处理和推理更长文本输入的能力,可能催生新的应用。
排序理由 详细介绍一种改进 LLM 性能新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →