研究人员引入了一种名为“测试时训练与下一词预测”(TTT-NTP)的新方法,该方法提高了预训练长上下文语言模型的性能。该技术无需重新设计架构即可适应现有的LLM检查点。TTT-NTP使用模型自身的下一个上下文隐藏状态来监督更新,与自监督的下一词预测目标保持一致。该方法在RULER Full-13和LongBench-v2等基准测试中,在包括Llama 3.1:8b和Mistral-7B-v0.3在内的各种模型上都显示出了一致的改进,同时保持了在常识和知识任务上的性能。 AI
影响 这种新的适应方法可以提高长上下文语言模型在实际应用中的效率和有效性。
排序理由 该集群包含一篇在arXiv上发表的关于语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Llama 3.1:8b
- LongBench-v2
- Mistral-7B-v0.3
- Qwen3
- Qwen3-0.6B
- Qwen3-4B
- RULER Full-13
- Test-Time Training with Next-Token Prediction
- TTT-NTP
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →