Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond
PulseAugur coverage of Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond — every cluster mentioning Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond across labs, papers, and developer communities, ranked by signal.
15 天有情绪数据
-
New benchmark tests AI's ability to monitor kitchen compliance
Researchers have introduced FoodMonitor, a new benchmark designed to evaluate multimodal large language models (MLLMs) on explainable compliance analysis in commercial kitchens. The benchmark includes video clips with d…
-
New framework reveals safety flaws in multimodal AI models
Researchers have developed StructBreak, a new framework to identify safety failures in multimodal large language models (MLLMs) caused by structural cognitive overload. This overload occurs when complex reasoning tasks …
-
新的TCAP方法可无监督检测多模态大语言模型后门
研究人员开发了一种名为三组件注意力剖析(TCAP)的新型无监督方法,用于检测微调后的多模态大语言模型(MLLMs)中的后门。该技术通过分析注意力在系统指令、视觉输入和用户查询之间的分布来识别被污染的数据,并指出后门攻击会破坏这种平衡。TCAP使用统计剖析和基于EM的聚合来隔离恶意样本,在各种MLLM架构和攻击类型上均表现出强大的性能。
-
新方法增强多模态大模型知识编辑的鲁棒性
研究人员开发了一种名为对抗性子空间对齐(ASAM)的新方法,以改进多模态大语言模型(MLLMs)中的知识编辑。该技术解决了当前方法在语义相似的视觉和语言变体之间泛化编辑能力的局限性。ASAM引入了潜在对抗性鲁棒化(LAR)来识别和利用脆弱的语义区域,以及秩约束子空间学习(RCSL)来对齐表示并确保知识单元内的一致预测。
-
CVSearch框架提升大语言模型高分辨率图像感知能力
研究人员开发了CVSearch,一个旨在改进多模态大语言模型(MLLMs)处理高分辨率图像方式的新框架。该系统无需训练,可动态调整其搜索策略,首先尝试专家辅助搜索,若首次尝试失败则采用新颖的语义感知扫描机制。CVSearch通过智能分解图像并迭代探索细节,旨在克服现有方法的效率和覆盖率权衡问题,在提高搜索效率的同时达到最先进的准确性。
-
新的ST-SimDiff框架提高了MLLM视频处理效率
研究人员开发了ST-SimDiff,一个旨在提高多模态大语言模型(MLLM)处理长视频效率的新框架。该方法通过关注视频内容的静态冗余和动态变化来解决计算负担。ST-SimDiff利用时空图来建模token关联,采用双重选择策略,识别代表静态信息的token和代表动态内容的转折点。实验表明,该方法在显著降低计算成本的同时,性能远超现有方法。
-
新数据集和基准测试 LLM 对癫痫视频的理解能力
研究人员开发了 Seizure-Semiology-Suite (S3),这是一个新的数据集和基准,旨在评估多模态大语言模型 (MLLM) 从视频理解复杂癫痫半肢体学能力。S3 数据集包含 438 个癫痫视频和超过 35,000 个标签,支持一个七任务基准,评估 MLLM 在从视觉感知到临床报告的各种性能方面。对 11 个开源 MLLM 的初步评估显示,在侧别推理和时间定位等方面存在明显不足,尽管针对癫痫的微调显示出改进的潜力。
-
新框架解决多模态大语言模型中的注意力分散问题
研究人员发现了一种称为注意力分散的现象,它会损害多模态大语言模型(MLLMs)的推理能力,尤其是在视觉问答任务中。当模型在复杂推理过程中,其视觉注意力从相关区域分散开时,就会发生这种情况。为了解决这个问题,提出了一种新的无需训练的框架——视觉区域引导注意力(VRGA),它通过重新加权注意力来使模型专注于关键视觉元素。
-
新的M-ORE方法增强了多模态LLM的编辑能力
研究人员开发了M-ORE,一种用于多模态大语言模型(MLLMs)的在线模型编辑新方法。该方法通过解耦文本和视觉组件,解决了跨模态冲突和顺序编辑之间的干扰等挑战。M-ORE使用统一的近端投影公式和Sherman-Morrison递归,实现了高效的、每个编辑恒定的开销,维护了模块化的局部性统计,并在固定的正交子空间内进行更新。实验表明,M-ORE在各种MLLM骨干模型和基准测试上,其可靠性、通用性和局部性均优于现有方法。
-
新的基准ReceiptBench评估多模态大语言模型在文档理解方面的能力
研究人员推出ReceiptBench,一个旨在评估多模态大语言模型(MLLMs)对真实文档(如收据)理解能力的新基准。该基准包含10,000张多样化的收据,并被划分为四个层级任务,从基本的文本识别到复杂的结构解析和语义推理。为了提高MLLMs在这些任务上的性能,开发了一种名为Metric-Aware Group Relative Policy Optimization (GRPO) 的新颖两阶段训练框架,该框架使用评估指标作为强化学习…
-
多模态大语言模型在个性评估中存在偏见差距,新基准揭示
研究人员推出了一项名为 MM-OCEAN 的新基准和数据集,用于评估多模态大语言模型(MLLMs)在推理个性方面的能力。研究发现,超过 51% 的 MLLMs 在没有基于可观察行为证据的情况下,提供了正确的个性评估。这种“偏见差距”凸显了准确预测与真正理解之间的脱节,表明需要更稳健的方法来评估人工智能的社会认知能力。
-
FashionLens 使用 LLM 实现多功能时尚图像检索
研究人员开发了 FashionLens,一个利用多模态大语言模型实现多功能时尚图像检索的统一框架。该系统通过支持多样化的查询格式和搜索意图,解决了现有方法的局限性。为实现这一点,FashionLens 引入了用于任务对齐度量空间的 Proposal-Guided Spherical Query Calibrator 和 Gradient-Guided Adaptive Sampling 策略,以平衡不同任务复杂度下的优化。该框架在新 …
-
New frameworks tackle faithfulness in multimodal AI reasoning
Researchers have developed Faithful-MR1, a new training framework designed to improve the faithfulness of multimodal reasoning in large language models. This framework addresses the challenge of accurately perceiving an…
-
New attack method enhances adversarial transferability in MLLMs
Researchers have developed FRA-Attack, a novel method to improve the transferability of adversarial attacks against multimodal large language models (MLLMs). This technique utilizes frequency-domain regularization to al…
-
新的VQA基准和方法解决了知识、适应性和关联性问题
研究人员推出了几个新的视觉问答(VQA)系统基准和方法。HyLoVQA提出了一种动态超网络生成的低秩适应技术,用于持续VQA,提高了对新任务和对象的适应性。WikiVQABench提供了一个使用维基百科和维基数据的知识增强型VQA基准,旨在测试需要外部知识的模型。此外,UCSF-PDGM-VQA专注于脑肿瘤MRI解读,突出了当前VLM在临床环境中的局限性,而RoboSurg-VQA则解决了手术分割感知的VQA问题,VISTAQA则对答…
-
New benchmark EgoCoT-Bench tests MLLM reasoning in egocentric video
Researchers have introduced EgoCoT-Bench, a new benchmark designed to evaluate the reasoning capabilities of Multimodal Large Language Models (MLLMs) when processing egocentric video data. This benchmark specifically fo…
-
Multimodal LLMs advance with new timing, data, and vision techniques
Researchers are developing multimodal large language models (MLLMs) that can process and integrate information from various data types, including text, audio, and video. One approach, MM-When2Speak, focuses on improving…
-
New framework enables robots to reason cooperatively using multiple video feeds
Researchers have introduced a new framework called SP-CoR for multimodal large language models (MLLMs) to enable cooperative spatial reasoning from multiple robot viewpoints. This framework is designed to answer complex…
-
新的基准测试评估视觉语言模型的空间推理、鲁棒性和一致性
研究人员开发了新的基准测试来评估视觉语言模型(VLMs)的空间推理能力。ArchSIBench 专注于建筑空间理解,而 Flat-Pack Bench 评估家具组装等任务中的时空推理能力。SpaceDG 通过在视觉退化条件下评估模型来解决鲁棒性问题,发现当前的 VLMs 在应对这些挑战时存在困难。此外,一个名为 SAGE 的框架旨在通过强制执行几何逻辑一致性来改进空间推理。
-
New benchmark SVFSearch tests multimodal LLMs on gaming video frame search
Researchers have introduced SVFSearch, a new benchmark designed to evaluate multimodal large language models in short-video frame search, specifically within the Chinese gaming domain. The benchmark includes 5,000 test …