English(EN) Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

大型语言模型使用强化学习进行自适应采样以降低成本

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-02 03:42

研究人员开发了一种新颖的大型语言模型（LLM）自适应采样方法，该方法使用强化学习（RL）来优化性能。该方法将采样过程构建为马尔可夫决策过程，训练一个轻量级控制器来平衡答案正确性、延迟和计算成本。该方法旨在提高 LLM 的推理能力，而无需传统测试时扩展技术的巨大开销，并且可以在 CPU 上进行训练和部署。 AI

影响这项研究通过降低推理过程中的计算成本和延迟，有望实现更高效的 LLM 推理。

排序理由该集群包含一篇详细介绍 LLM 新研究方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Runpeng Dai, Tong Zheng, Rui Liu, Chengsong Huang, Hongtu Zhu · 2026-06-03 04:00

小型强化学习控制器，大型语言模型：强化学习引导的测试时自适应采样

arXiv:2606.03102v1 Announce Type: new Abstract: Test-time scaling improves the reasoning performance of large language models but incurs substantial cost in both total computation and latency. Existing adaptive sampling methods partially mitigate this issue by dynamically decidin…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-02 03:42

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Adaptive sampling for large language models is formulated as a Markov decision process and optimized using reinforcement learning to balance correctness, latency, and computational cost.

报道来源 [2]

小型强化学习控制器，大型语言模型：强化学习引导的测试时自适应采样

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

相关实体

相关话题