PulseAugur
实时 17:00:19
English(EN) Randomized YaRN Improves Length Generalization for Long-Context Reasoning

Randomized YaRN 增强了 LLM 的长上下文推理能力

研究人员开发了 Randomized YaRN,这是一种新颖的训练方法,旨在增强大型语言模型 (LLM) 在处理比初始训练长度长得多的文本序列时的泛化能力。该技术结合了基于 YaRN 的位置外插和随机位置编码以及长度课程。通过在短上下文训练期间也让模型接触分布外的位置表示,Randomized YaRN 在 BABILong 和 MRCR 等长上下文推理基准测试中表现出改进的性能,尤其是在远超训练数据的长度下。 AI

影响 提高了 LLM 处理和推理更长文本输入的能力,可能催生新的应用。

排序理由 详细介绍一种改进 LLM 性能新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Randomized YaRN 增强了 LLM 的长上下文推理能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Greg Durrett ·

    Randomized YaRN Improves Length Generalization for Long-Context Reasoning

    Large language models (LLMs) are typically pretrained on short sequences and then extended to work on longer sequences with additional training. However, such LLMs still struggle to further generalize to very long sequences. We propose Randomized YaRN, a training method that impr…