Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond
PulseAugur coverage of Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond — every cluster mentioning Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond across labs, papers, and developer communities, ranked by signal.
15 天有情绪数据
-
新 PRISM 框架纠正多模态大模型训练中的 SFT 缺陷
来自香港科技大学(广州)等机构的新研究揭示了多模态大语言模型(MLLMs)常见训练范式中的一个关键缺陷。监督微调(SFT)后进行强化学习(RL)的标准方法,可能会通过引入分布漂移而无意中损害模型性能,导致模型表面上模仿正确答案而非真正理解它们。这个问题在更强的模型中尤为突出,因为 SFT 可能会在 RL 开始之前就降低模型能力。提出的 PRISM 框架通过在 SFT 和 RL 之间插入一个分布对齐阶段来解决这个问题,使用一种新颖的混合…
-
新基准 VGenST-Bench 和 CaST-Bench 旨在评估 MLLM 的时空推理能力
研究人员推出了两个新的基准测试,VGenST-Bench 和 CaST-Bench,旨在更严格地评估多模态大语言模型 (MLLM) 和视觉语言模型 (VLM) 的时空推理能力。VGenST-Bench 利用主动视频合成,在各种空间和时间维度上创建受控场景,从而能够对 MLLM 的理解进行细粒度诊断。CaST-Bench 侧重于因果链驱动的时空推理,要求模型识别和定位视频中因果关系证据,突显了当前 VLM 在此领域的局限性。
-
MAgSeg uses MLLMs for agricultural landscape segmentation
Researchers have developed MAgSeg, a new method for segmenting agricultural landscapes in high-resolution satellite imagery, particularly for regions in the Global South where data is scarce. This approach utilizes mult…
-
New GRASP dataset enhances AI's social reasoning in videos
Researchers have introduced GRASP, a new dataset and benchmark designed to improve multimodal large language models' (MLLMs) ability to understand social interactions in videos. GRASP connects high-level social question…
-
新方法提升AI对艺术品情感的理解能力
研究人员开发了一种名为属性导向选择性推理(AGSR)的新方法,以提高多模态大型语言模型对艺术品情感的理解能力。当前模型通常会列出许多视觉属性,但未能 pinpoint 哪些属性对情感解读至关重要。AGSR 通过识别和关注具有情感作用的属性来解决这一问题,从而实现更准确的情感预测和更简洁的解释。该方法使用包含人类标注属性显著性的人类标注数据集进行了验证。
-
新的GSEC框架使用LLM改进图像聚类
研究人员开发了一个名为GSEC的新图像聚类框架,该框架利用生成式语义引导和双层集成策略。该方法采用多模态大型语言模型(LLM)来创建语义描述并导出图像嵌入,旨在减少聚类的偏差和方差。实验表明,GSEC在六个基准数据集上的表现优于18种现有方法,证明了其在提高聚类准确性方面的有效性。
-
新基准CiteVQA揭示LLM中的“归因幻觉”
研究人员推出了CiteVQA,这是一个旨在评估多模态大语言模型(MLLM)将答案准确归因于文档内特定源区域能力的新基准。与仅对最终答案评分的先前评估不同,CiteVQA要求模型在答案旁边提供元素级边界框引用,联合评估两者。该基准包含711个PDF文件中的1897个问题,揭示了一个被称为“归因幻觉”的重大问题,即模型经常提供正确的答案但引用错误的证据,这凸显了当前文档智能系统中存在的关键可靠性差距。
-
New benchmark reveals AI models lag human experts in judging image beauty
Researchers have developed the Visual Aesthetic Benchmark (VAB) to evaluate how well multimodal large language models (MLLMs) can judge beauty in images. Their study found that current frontier MLLMs perform significant…
-
新基准揭示MLLM在空间推理方面存在困难
研究人员推出PCSR-Bench,一个旨在评估多模态大型语言模型(MLLM)在处理全向图像时的空间推理能力的新诊断基准。该基准包含超过84,000个跨越2,600张图像的问答对,揭示了基础感知与高级推理任务之间存在显著差距。虽然模型在物体计数等基本任务上表现尚可,但在涉及视角变化和以自我为中心的失真的更复杂推理任务上,其准确率急剧下降。使用强化学习对一个较小模型进行的进一步实验表明,通过有针对性的优化可以提高空间推理能力,尽管收益是特…
-
新基准测试用于评估多模态大语言模型处理复杂优化任务的能力
研究人员推出 MM-OptBench,这是一个旨在评估多模态大语言模型(MLLMs)在优化建模任务上的新基准测试。该基准测试结合了文本和视觉信息,这与仅限文本的现有评估不同,更能反映实际操作实践。对包括前沿通用模型和数学专业模型在内的九个 MLLMs 的初步评估显示,该任务仍然具有挑战性,最好的模型在简单实例上的准确率仅约为 52%,在更难的实例上则显著更低。
-
新的多模态基准使用900K份日本学生回应
研究人员开发了一个新的人本多模态基准,使用了来自日本全国学力测试的数据,该数据包含约90万份汇总的学生回应。该数据集包含科学、数学和日语科目的真实考试材料,保留了真实的布局和图表。它旨在通过允许模型和人类表现之间的直接比较,为多模态大语言模型(MLLMs)提供一个以人为本的评估框架。
-
新的V-ABS框架增强了多模态视觉推理能力
研究人员开发了V-ABS,一个新颖的束搜索框架,旨在改进多模态大语言模型中的多步视觉推理。该方法通过迭代的思考者-行动者-观察者循环来解决想象-行动-观察者偏差。V-ABS还包含一个基于熵的自适应加权算法和一个包含超过80,000个样本的大型数据集,以更好地平衡策略先验与观察反馈。实验表明性能有显著提升,在Qwen3-VL-8B基线上,跨多个基准的平均提升为19.7%。
-
SphereVAD 利用 LLM 特征进行训练无关的视频异常检测
研究人员开发了 SphereVAD,一个新颖的视频异常检测框架,无需任何特定任务的训练即可运行。该方法利用预训练的多模态大型语言模型中间特征中已有的丰富语义信息。SphereVAD 将异常检测重新构建为单位超球体上的测地线推理问题,利用几何推理区分异常事件和正常模式。该框架包括 Frechet 均值中心化、整体场景注意力 (Holistic Scene Attention) 和 vMF 引导的球面测地线拉动 (vMF-guided S…
-
AI研究强调跨文化和非英语语言模型开发中的挑战
两篇新研究论文强调了为非英语语言和文化开发人工智能的挑战。其中一篇论文回顾了构建阿拉伯语自然语言处理资源的二十年历程,得出结论认为社会和制度因素比语言因素更难克服。另一篇论文介绍了一个基准,用于评估多模态大型语言模型(MLLMs)在不负面影响其在其他文化背景下表现的情况下,适应不同文化的能力。
-
新的基准和模型推动视频理解奖励建模的进步
研究人员开发了用于视频理解任务的奖励模型训练新方法,填补了当前AI能力的空白。一种方法引入了一个名为VURB的基准和VUP-35K数据集,催生了VideoDRM和VideoGRM等模型,取得了最先进的性能。另一种方法DeScore采用“先思考后评分”的范式,将推理与评分解耦,提高了视频奖励模型的训练效率和泛化能力。
-
Pro$^2$Assist 使用AR和LLM提供主动式程序化任务指导
研究人员开发了Pro$^2$Assist,一个新颖的多模态大语言模型系统,旨在为复杂、长时序的程序化任务提供连续的、步进感知的、主动式辅助。与大多数被动式助手不同,Pro$^2$Assist 利用AR眼镜的数据来感知用户动作并实时理解任务进展。该系统从时间动态和专家知识中提取程序化上下文,以推断用户需求并提供及时的指导,在动作理解和主动式时机准确性方面优于现有方法。
-
VoxAfford 通过多尺度体素-令牌融合改进三维可供性检测
研究人员开发了 VoxAfford,一种用于开放词汇三维可供性检测的新颖方法。该方法通过将来自 3D VQVAE 编码器的多尺度几何特征直接集成到输出令牌中,来增强多模态大型语言模型。通过使用可供性语义查询相关的几何模式,然后将这些模式聚合到空间感知的提示中,VoxAfford 显著提高了定位精度。
-
新研究解决多模态情感识别中的冲突数据问题
研究人员开发了新的方法来改进多模态情感识别,该技术结合了文本、音频和视觉数据。一种方法,双路径冲突解决(DCR),学习融合冲突模态或完全丢弃它们,在多个基准测试上优于现有基线。另一种方法,EmoMM,引入了一个基准测试和一种称为冲突感知头部注意力引导(CHASE)的技术,以解决多模态大语言模型中的视频贡献崩溃等问题,从而提高其在复杂情感场景中的可靠性。
-
COHERENCE基准测试评估MLLM在交错上下文中的细粒度图像-文本对齐能力
研究人员推出了一项名为COHERENCE的新基准测试,旨在评估多模态大型语言模型(MLLM)的细粒度图像-文本对齐能力。现有的基准测试常常忽略真实文档中交错图像-文本上下文的复杂性。COHERENCE通过评估MLLM在混合媒体环境中连接视觉和文本信息的能力来弥补这一不足,涵盖四个不同领域,包含超过6000个问题。
-
研究人员开发了知识图谱检索和补全的新方法
研究人员开发了新的框架,通过将多模态知识图谱与检索增强生成技术相结合,来增强知识图谱补全和视觉问答。一种名为RADD的方法将多模态知识图谱补全的检索和重排序解耦,在基准测试中取得了最先进的结果。另一种名为mKG-RAG的方法,在知识密集型视觉问答的检索增强生成中利用多模态知识图谱,通过使用结构化知识和双阶段检索策略来提高准确性。