English(EN) LiteVLA-H: Dual-Rate Vision-Language-Action Inference for Onboard Aerial Guidance and Semantic Perception

LiteVLA-H 模型支持无人机的双速率视觉-语言-动作推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了 LiteVLA-H，这是一个紧凑的 2.56 亿参数视觉-语言-动作模型，针对机载航空部署进行了优化。该系统以双速率运行，能够实现无人机控制的快速外环制导以及场景理解和叙述的较慢语义处理。该模型通过专注于高效的多模态预填充来实现低延迟，从而能够以近 20Hz 的速率输出响应式动作令牌，同时仍然支持句子级别的语义输出。 AI

影响该模型可以为航空机器人和无人机应用提供更具响应性和上下文感知的 AI。

排序理由这是一篇详细介绍新模型架构及其性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Justn williams, Kishor Datta Gupta, Roy George, Mrinmoy Sarkar · 2026-05-05 04:00

LiteVLA-H：用于机载航空制导和语义感知的双速率视觉-语言-动作推理

arXiv:2605.00884v1 Announce Type: new Abstract: Vision-language-action (VLA) models have shown strong semantic grounding and task generalization in manipulation, but aerial deployment remains difficult because drones require low-latency closed-loop guidance under strict onboard c…

报道来源 [1]

LiteVLA-H：用于机载航空制导和语义感知的双速率视觉-语言-动作推理

相关实体

相关话题