PulseAugur
实时 04:21:05
English(EN) Test-Time Training with Next-Token Prediction

新的TTT-NTP方法提高了LLM在长上下文任务上的性能

研究人员引入了一种名为“测试时训练与下一词预测”(TTT-NTP)的新方法,该方法提高了预训练长上下文语言模型的性能。该技术无需重新设计架构即可适应现有的LLM检查点。TTT-NTP使用模型自身的下一个上下文隐藏状态来监督更新,与自监督的下一词预测目标保持一致。该方法在RULER Full-13和LongBench-v2等基准测试中,在包括Llama 3.1:8b和Mistral-7B-v0.3在内的各种模型上都显示出了一致的改进,同时保持了在常识和知识任务上的性能。 AI

影响 这种新的适应方法可以提高长上下文语言模型在实际应用中的效率和有效性。

排序理由 该集群包含一篇在arXiv上发表的关于语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的TTT-NTP方法提高了LLM在长上下文任务上的性能

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Junjie Hu ·

    Test-Time Training with Next-Token Prediction

    Next-token prediction is the self-supervised signal that trains language models, and every observed prompt token provides the same signal at test time. We study whether this signal can define the inner-loop objective for test-time training (TTT) in pretrained long-context languag…