实体 VLM agents

VLM agents

PulseAugur coverage of VLM agents — every cluster mentioning VLM agents across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_53790 · May 27 · 04:00

新的 SELA 框架使用 VLM 代理进行可解释的时间序列事件检测

研究人员开发了一个名为 SELA 的新框架，使用神经符号 VLM 代理在多变量时间序列数据中检测事件。这种称为语言引导 TSED 的方法利用事件的文本描述，以最少或无标记数据的方式识别信号中的相应区间。该系统利用事件逻辑树 (ELT) 知识表示，将语言描述转换为结构化时间逻辑，从而能够对信号原语进行接地，并为检测到的事件生成忠实、树状的解释。在真实世界能源和气候数据集上的实验表明，SELA 在现有的监督和零/少样本时间序列推理基线方面有所改进。
TOOL · CL_44668 · May 22 · 04:00

新的 GROW 框架通过适配的 GRPO 增强 VLM 代理

研究人员推出了一种新颖的强化学习框架 GROW，旨在增强视觉语言模型 (VLM) 代理在开放世界任务中的能力。与以往严重依赖监督微调的方法不同，GROW 通过将轨迹分解为状态-动作样本来适配 Group Relative Policy Optimization (GRPO) 算法。这种方法缓解了标准 GRPO 中固有的长上下文和噪声问题，实现了更有效的多轮学习。在超过 800 个 Minecraft 任务上的实验表明，GROW 达到了…
TOOL · CL_37984 · May 18 · 06:41

AtlasVA框架通过视觉技能记忆增强视觉语言模型智能体

研究人员推出AtlasVA，一个旨在增强视觉语言模型（VLM）智能体视觉技能记忆的新框架。与将视觉信息转换为文本的现有方法不同，AtlasVA维护了一个视觉基础的记忆结构。该结构包括空间热图、视觉范例和符号文本技能，能够实现更有效的空间决策和密集视觉反馈。

新的 SELA 框架使用 VLM 代理进行可解释的时间序列事件检测

新的 GROW 框架通过适配的 GRPO 增强 VLM 代理

AtlasVA框架通过视觉技能记忆增强视觉语言模型智能体