PulseAugur
实时 12:54:13
English(EN) EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$

EAGLE-360框架利用全局先验知识推进360度视觉搜索

研究人员推出EAGLE-360,一个旨在改善360度全景环境中主动视觉搜索的新框架。与依赖零散局部视图的传统方法不同,EAGLE-360利用全局先验知识建立整体视角并迭代缩小搜索空间。该框架结合了RoPE Rolling来模拟连续全景拓扑,并使用监督微调(SFT)和组相对策略优化(GRPO)进行训练。这种方法在360度视觉搜索方面达到了新的最先进水平,准确性提高了约八倍,并增强了探索效率。 AI

影响 增强了全景环境中的视觉搜索能力,可能改进机器人和自主系统。

排序理由 该集群描述了一篇关于特定AI任务的新研究论文,其中详细介绍了一个新颖的框架和数据集。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

EAGLE-360框架利用全局先验知识推进360度视觉搜索

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Jingtao Xu, Zizhuo Lin, Jianwen Sun, Yi Yang, Yawei Luo ·

    EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$

    arXiv:2607.02479v1 Announce Type: new Abstract: While Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in standard visual understanding, adapting them for active visual search in 360$^\circ$ panoramic environments exposes fundamental limitations…

  2. arXiv cs.CV TIER_1 English(EN) · Yawei Luo ·

    EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$

    While Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in standard visual understanding, adapting them for active visual search in 360$^\circ$ panoramic environments exposes fundamental limitations. Specifically, standard MLLMs struggle to effec…