研究人员开发了 LiteVLA-H,这是一个紧凑的 2.56 亿参数视觉-语言-动作模型,针对机载航空部署进行了优化。该系统以双速率运行,能够实现无人机控制的快速外环制导以及场景理解和叙述的较慢语义处理。该模型通过专注于高效的多模态预填充来实现低延迟,从而能够以近 20Hz 的速率输出响应式动作令牌,同时仍然支持句子级别的语义输出。 AI
影响 该模型可以为航空机器人和无人机应用提供更具响应性和上下文感知的 AI。
排序理由 这是一篇详细介绍新模型架构及其性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →