新的APT方法通过动作专家预训练提升VLA模型的泛化能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 00:00

研究人员开发了一种名为APT（动作专家预训练）的新方法，以提高视觉-语言-动作（VLA）模型的泛化能力。这些模型结合了视觉-语言理解和动作执行，但常常难以处理与其训练数据不同的指令。APT通过首先在视觉-动作对上预训练动作专家，建立一个稳定的基础，然后再整合语言条件来实现这一目标。这种两阶段的方法有助于防止训练数据中的语言不平衡破坏模型的视觉运动技能，并增强其遵循新指令的能力。 AI

影响这项研究可能带来更强大、更具适应性的AI代理，能够理解并执行更广泛的现实世界指令。

排序理由该集群描述了一篇详细介绍新AI模型性能改进方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-10 00:00

APT：动作专家预训练提升了视觉-语言-动作策略的指令泛化能力

Researchers address poor generalization in Vision-Language-Action models by proposing APT, a two-stage training method that pretrains action experts using vision-action pairs before integrating language conditioning to improve out-of-distribution instruction performance.

报道来源 [1]

APT：动作专家预训练提升了视觉-语言-动作策略的指令泛化能力

相关实体

相关话题