研究人员推出了一种名为“Divide, Deliberate, Decide”的新型多智能体框架,旨在增强自我中心视频中的细粒度动作识别。该零样本系统利用VLM协调器来分割视频并提出候选动作,随后进入审议阶段,异构VLM专家相互咨询。该框架聚合智能体排名以改进预测,而无需任何微调,通过利用去相关模型先验,展示了优于基线方法的性能。 AI
影响 该框架可以通过利用协作式AI智能体来提高AI系统理解复杂视觉数据的准确性。
排序理由 该集群描述了一篇发表在arXiv上的新研究论文,详细介绍了一个用于动作识别的新框架。
- Alessandro Sottovia
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Divide, Deliberate, Decide
- Gotit.pub
- Hugging Face
- ScienceCast
- vision-language model
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →