MARVIS 系统使用 VLM 对可视化进行推理以完成预测任务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员开发了 MARVIS，一个新颖的系统，通过将大型语言模型和视觉语言模型（VLM）的潜在嵌入转换为可视化表示，来增强它们的推理能力。这种方法使 VLM 能够解释这些可视化，从而在视觉、音频、生物学和表格数据等不同领域提高了预测性能。一个拥有 30 亿参数的 MARVIS 模型展示了具有竞争力的结果，在无需领域特定训练的情况下，平均性能超越了 Google 的 Gemini 2.0 的 16%。 AI

影响通过可视化嵌入增强 VLM 推理能力，有可能在无需领域特定调优的情况下提高对不同数据类型的性能。

排序理由学术论文，详细介绍了一种用于提高 VLM 推理能力的新系统。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Benjamin Feuer, Lennart Purucker, Oussama Elachqar, Chinmay Hegde · 2026-04-30 04:00

MARVIS：视觉自适应推理

arXiv:2507.01544v2 Announce Type: replace Abstract: Predictive applications of machine learning often rely on small (sub 1 Bn parameter) specialized models tuned to particular domains or modalities. Such models often achieve excellent performance, but lack flexibility. LLMs and V…

报道来源 [1]

MARVIS：视觉自适应推理

相关实体

相关话题