PulseAugur
实时 02:09:38
English(EN) Compute Aligned Training: Optimizing for Test Time Inference

Compute Aligned Training 优化 LLM 以适应测试时推理策略

研究人员推出了一种名为 Compute Aligned Training 的新训练方法,旨在更好地优化大型语言模型 (LLM) 在推理期间的性能。传统的监督微调 (Supervised Fine-Tuning) 和强化学习 (Reinforcement Learning) 等方法没有考虑到 LLM 在测试时实际的使用方式,而这通常涉及聚合或过滤输出。这种新方法将训练目标与这些特定的测试时策略对齐,推导出新的损失函数,以在这些条件下最大化性能。实证结果表明,与标准训练技术相比,该方法显著提高了测试时扩展性。 AI

影响 引入了一种新颖的训练方法,可以提高 LLM 在推理时的效率和性能。

排序理由 这是一篇描述 LLM 新训练方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Compute Aligned Training 优化 LLM 以适应测试时推理策略

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Adam Ousherovitch, Ambuj Tewari ·

    Compute Aligned Training: Optimizing for Test Time Inference

    arXiv:2604.24957v1 Announce Type: new Abstract: Scaling test-time compute has emerged as a powerful mechanism for enhancing Large Language Model (LLM) performance. However, standard post-training paradigms, Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), optimize th…

  2. arXiv cs.LG TIER_1 English(EN) · Ambuj Tewari ·

    Compute Aligned Training: Optimizing for Test Time Inference

    Scaling test-time compute has emerged as a powerful mechanism for enhancing Large Language Model (LLM) performance. However, standard post-training paradigms, Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), optimize the likelihood of individual samples under a base …