PulseAugur
实时 13:50:57

新的SAVER框架选择性地使用视觉证据进行多模态提取

研究人员开发了SAVER,一个旨在改进从社交媒体帖子中提取多模态信息的新框架。该系统选择性地利用附加图像中的视觉证据,而不是默认处理所有图像,以提高准确性和效率。SAVER采用了一个Conformal Groundability Gate来确定视觉数据的相关性,并使用一个子模态选择器来选择最相关的图像子集进行分析。实验表明,SAVER通过提高F1分数同时降低计算成本和延迟,优于仅文本和始终开启的多模态方法。 AI

影响 提高了多模态信息提取的效率和准确性,可能增强AI处理复杂社交媒体内容的能力。

排序理由 该集群包含一篇详细介绍多模态信息提取新框架的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的SAVER框架选择性地使用视觉证据进行多模态提取

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Miaobo Hu, Shuhao Hu, Bokun Wang, Rui Chen, Xin Wang, Xiaobo Guo, Daren Zha, Jun Xiao ·

    SAVER:选择性按需视觉证据用于多模态信息提取

    arXiv:2605.20713v1 Announce Type: cross Abstract: Multimodal IE in social media is difficult because a post may attach multiple images that are weakly related, redundant, or even misleading with respect to the text. In this setting, always-on multimodal fusion wastes computation …

  2. arXiv cs.AI TIER_1 English(EN) · Jun Xiao ·

    SAVER:选择性按需视觉证据用于多模态信息提取

    Multimodal IE in social media is difficult because a post may attach multiple images that are weakly related, redundant, or even misleading with respect to the text. In this setting, always-on multimodal fusion wastes computation and can amplify spurious visual cues. The core cha…