Large Multimodal Models as Social Multimedia Analysis Engines
PulseAugur coverage of Large Multimodal Models as Social Multimedia Analysis Engines — every cluster mentioning Large Multimodal Models as Social Multimedia Analysis Engines across labs, papers, and developer communities, ranked by signal.
-
新的FIKA-Bench测试AI知识获取能力,超越视觉识别
研究人员推出FIKA-Bench,一个旨在评估AI系统获取未知物体知识能力的新基准,超越了简单的视觉识别。该基准包含311个精心策划的真实世界实例,以避免数据泄露并确保证据接地。评估显示,即使是最先进的大型多模态模型和代理在该任务上也表现不佳,准确率仅为25%左右,这凸显了改进专注于细粒度识别和证据验证的代理设计的必要性。
-
新的基准测试揭示了大型语言模型多模态上下文学习的重大差距
引入了两个新的基准测试 MMCL-Bench 和 Personal-VCL-Bench,用于评估大型语言模型的多模态上下文学习能力。MMCL-Bench 侧重于从视觉规则、程序和证据中学习,而 Personal-VCL-Bench 则评估模型利用用户特定的视觉上下文进行个性化查询的能力。两个基准测试都揭示了当前前沿多模态模型存在的显著局限性,表明它们在有效提取、推理和应用视觉信息方面存在巨大差距。
-
新方法通过生成视角增强大型多模态模型(LMM)的空间推理能力
研究人员引入了一种名为“以新视角思考”(Thinking with Novel Views, TwNV)的新范式,以增强大型多模态模型(LMM)的空间推理能力。该方法将生成式新视角合成整合到LMM的推理过程中,使其在面对空间歧义时能够生成和分析替代视角。实验表明,精确的相机姿态规范比自然语言在视角控制方面更有效,并且合成视角的质量直接影响空间准确性。TwNV方法在各种LMM架构和空间推理任务中持续提高了准确性。
-
新的LithoBench基准揭示大型多模态模型的局限性
研究人员推出LithoBench,一个旨在评估大型多模态模型从遥感数据解释地质岩性能力的新基准。该基准包含10,000个专家标注的实例,涵盖12种岩性类别,并分为五个认知级别,从基本识别到复杂推理。使用LithoBench进行的实验揭示了当前大型多模态模型存在的显著局限性,特别是在执行更高级别的地质解释、应用和推理任务方面。
-
新的 CC-OCR V2 基准测试显示大型多模态模型在现实世界文档处理方面表现不足
发布了一个新的基准测试 CC-OCR V2,用于评估大型多模态模型 (LMMs) 在现实世界文档处理任务上的表现。该基准测试包含 7,093 个具有挑战性的样本,涵盖五个以 OCR 为中心的赛道,解决了现有基准测试未能反映实际应用条件的局限性。对 14 个先进 LMMs 的实验显示其性能显著下降,突显了当前模型能力与现实世界需求之间的差距。
-
新的CSteer方法无需微调即可引导大型多模态模型指代多个区域
研究人员开发了一种新的无需训练的方法,称为上下文潜在引导(CSteer),以增强大型多模态模型(LMMs)准确识别和指代图像中多个特定区域的能力。该方法在推理过程中修改模型的内部表示,使其能够更好地区分区域并考虑全局上下文,而无需额外的微调或架构更改。在各种数据集上的实验表明,配备CSteer的LMM在视觉指代任务上超越了专门的指代模型,确立了新的最先进水平。
-
VEBench 基准测试评估用于视频编辑任务的大型多模态模型
研究人员推出了 VEBENCH,这是一个旨在评估大型多模态模型 (LMM) 在真实世界视频编辑任务中的新基准。该基准包含超过 3.9K 个编辑过的视频和 3,080 对问答,重点关注识别编辑技术和模拟编辑工作流程。使用 VEBENCH 进行的实验揭示了当前 LMM 在视频编辑方面的能力与人类能力之间存在显著的性能差距,突显了改进多模态推理和操作能力的需求。
-
Tree-of-Evidence算法增强多模态AI的可解释性
研究人员开发了一种名为Tree-of-Evidence (ToE)的新方法,以提高大型多模态模型 (LMMs) 的可解释性。ToE将模型可解释性构建为一个优化问题,使用轻量级的“证据瓶颈”来识别预测的关键数据单元。这种方法在保持高预测性能的同时,允许进行可审计的证据追踪,仅用最少的证据单元就保留了完整模型98%以上的AUROC。
-
研究人员开发Glance-or-Gaze,通过自适应聚焦提升大型多模态模型的视觉搜索能力
研究人员推出Glance-or-Gaze (GoG),一个旨在改进大型多模态模型(LMM)处理知识密集型视觉查询的新框架。与之前不加区分地检索信息的旧方法不同,GoG采用选择性注视机制,自适应地聚焦于相关的图像区域或全局上下文。该框架采用双阶段方法进行训练,结合了监督微调和复杂度自适应强化学习,以增强迭代推理能力和在复杂视觉任务上的表现。
-
新基准UNIKIE-BENCH评估大模型在文档信息提取方面的能力
研究人员推出了UNIKIE-BENCH,这是一个旨在系统评估大语言多模态模型(LMMs)从视觉文档中提取关键信息性能的新基准。该基准包含两个赛道:一个用于具有预定义模式的约束类别KIE,另一个用于开放类别KIE。使用15个最先进的LMMs进行的实验突显了在处理不同模式、长尾信息和复杂布局时性能显著下降,表明LMMs在该领域的准确性和推理能力仍面临挑战。