实体 MLLMs

MLLMs

PulseAugur coverage of MLLMs — every cluster mentioning MLLMs across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

174

90 天内 174

发布 · 30天

90 天内 0

论文 · 30天

174

90 天内 174

层级分布 · 90 天

主题

论文 174
模型发布 77
其他 45
安全 31
产品 23
基础设施 5
政策 1

关系

instance of Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond 95%
instance of DagsHub 90%
instance of CatalyzeX 90%
instance of Gotit.pub 90%
instance of alphaXiv 90%
used by Standard Chinese 70%
used by Chain Of Thought 70%
used by visual question answering 70%
used by Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond 70%
used by train of thought 70%
used by alphaXiv 70%
used by English 60%

时间线

2026-05-22 research_milestone A new pipeline was introduced to enhance MLLMs for safety-critical driving video analysis. 来源
2026-05-22 research_milestone Researchers reveal and propose a method to recover temporal grounding in multimodal large language models. 来源
2026-05-22 research_milestone A new benchmark and dataset were introduced to evaluate MLLMs' ability to reason about personality beyond superficial cues. 来源
2026-05-21 research_milestone A new method using MLLMs for detecting AI-generated Chinese poetry achieves state-of-the-art results. 来源

情绪 · 30 天

21 天有情绪数据

最近 · 第 1/9 页 · 共 174 条

TOOL · CL_133601 · Jul 9 · 04:00

新的POPS方法从MLLM中恢复未学习的私有数据

研究人员开发了一种名为提示优化参数抖动（POPS）的新对抗策略，用于从多模态大型语言模型（MLLM）中恢复未学习的多模态知识。该方法旨在利用现有的多模态机器遗忘（MMU）技术的漏洞，这些技术旨在删除私有信息。POPS通过优化提示来引发MLLM中潜在的私有示例，然后使用这些合成的输出来微调模型，从而揭示敏感信息。实验表明，POPS可以显著恢复被擦除的敏感数据，突显了当前MMU算法的基本弱点。
TOOL · CL_131534 · Jul 8 · 04:00

Omni-RRM 通过自动化的评分标准引导奖励来推进多模态 LLM 对齐

研究人员推出 Omni-RRM，这是一种新颖的奖励模型，旨在改进多模态大语言模型 (MLLM) 的对齐。与主要以视觉为中心且依赖昂贵的人工标签的现有模型不同，Omni-RRM 可以跨文本、图像、视频和音频生成多维奖励信号。这是通过一个名为 Omni-Preference 的新数据集实现的，该数据集使用自动化流程来合成基于明确评分标准的偏好，从而降低了人工评估的成本和不一致性。Omni-RRM 在多个基准测试中（包括视频和音频任务）均展…
RESEARCH · CL_131408 · Jul 7 · 15:48

新的 HoloCount 基准揭示 MLLM 计数局限性 · 已追踪 2 个来源

研究人员推出了 HoloCount，这是一个旨在评估多模态大语言模型 (MLLM) 视觉计数能力的新基准。该基准通过在语义、分析和鲁棒性测试类别中评估 MLLM，包括复杂推理和对抗性场景，来解决现有工具的局限性。对 20 多个最先进 MLLM 的评估显示，随着任务从基本感知转向更复杂的分析推理，模型的性能存在显著差距，性能有所下降。
RESEARCH · CL_131434 · Jul 7 · 08:29

新框架SparseCtrl-HOI使用稀疏关键帧进行人与物体交互视频生成

研究人员开发了SparseCtrl-HOI，一个用于生成人与物体交互视频的新框架，它显著减少了对密集时序引导的需求。该方法仅使用少量关键帧来控制交互过程，降低了标注成本并增加了运动多样性。该框架包含一个时间控制旋转位置嵌入（TiRoPE）用于时序锚定，以及一个利用多模态大语言模型（MLLMs）生成关键帧之间合理过渡的运动先验注入模块。此外，还创建了一个名为SparseHOI-5K的新数据集来支持这种稀疏时序控制方法，在为直播电商等应用…
TOOL · CL_129396 · Jul 7 · 04:00

新的GuideMe基准测试MLLM的实时视频任务指导能力

研究人员推出了GuideMe，这是一个新的基准测试，旨在评估多模态大语言模型（MLLM）在流式视频中为程序性任务提供实时指导和干预的能力。该基准测试包含来自不同领域的2400多个视频，以及近48000个交互样本，涵盖指令、反馈和纠错等任务。初步实验显示，当前的MLLM在给出指令方面表现出色，但在识别执行错误和提供纠正性反馈方面存在显著困难。
TOOL · CL_128747 · Jul 7 · 04:00

新的K9-Bench基准测试在狗视频上测试多模态大语言模型

研究人员推出了K9-Bench，这是一个旨在评估多模态大语言模型（MLLMs）在理解以犬类为中心的视频方面的能力的新基准。该基准由约5000个问答对组成，来源于907个视频，重点关注犬类的行为和互动理解。初步实验显示，当前前沿的MLLMs在这些专业任务上的零样本表现有限，在长视频序列中对细微线索的组合推理方面存在困难。
TOOL · CL_123382 · Jul 3 · 04:00

SPAR框架统一多模态模型，增强视觉理解和生成能力

研究人员推出SPAR，一个旨在统一多模态大语言模型（MLLMs）以实现视觉理解和生成的创新框架。SPAR通过采用非对称双流统一分词器来解决语义感知和像素级重建之间固有的特征差异。该分词器使用语义流来提取判别性特征，并使用增强的像素流来恢复细粒度细节。该框架还采用自对齐生成范式和动态分词路由，以实现自适应多模态交互。
TOOL · CL_123262 · Jul 3 · 04:00

新的NarrativeTrack基准测试MLLMs在视频中的以实体为中心的推理能力

研究人员推出了一款名为NarrativeTrack的新型基准测试，旨在评估多模态大语言模型（MLLMs）的叙事理解能力。该基准测试侧重于以实体为中心的推理，评估模型在时间展开的视频叙事中跟踪实体、实体变化以及歧义的能力。当前最先进的MLLMs在鲁棒的实体跟踪方面存在困难，表现出感知基础与时间连贯性之间的权衡，凸显了更好地整合这些能力的需求。
TOOL · CL_121089 · Jul 1 · 07:39

新的EgoGapBench基准测试突显了大型语言模型在以自我为中心的动作选择方面存在的困难

一个新的名为EgoGapBench的基准测试已被开发出来，专门用于评估多智能体场景中的以自我为中心的动作选择。该基准测试旨在分离出从智能体自身视角选择动作的能力，这与仅仅处理第一人称视角数据不同。目前的大型语言模型，包括专有的模型，在执行此任务时都面临困难，常常选择其他智能体的动作而不是自身的动作。虽然在现有以自我为中心的数据上进行微调并不能显著提高性能，但直接在EgoGapBench数据上进行训练显示出希望，但尚未达到人类水平的准确性。
TOOL · CL_134290 · Jul 1 · 00:00

Splash 框架赋能 MLLMs 学习触觉感知，且不遗忘视觉语言技能

研究人员开发了 Splash，一个新颖的框架，旨在将触觉感知能力集成到多模态大语言模型 (MLLMs) 中，同时不损害其现有的视觉语言推理能力。这是通过选择性地更新模型参数来实现的，在适应新的触觉数据时保留关键知识。Splash 在 SSVTP、TVL 和 TacQuad 等多个视觉触觉基准测试中展示了最先进的性能，同时保持了其通用功能且不产生额外的推理开销。
RESEARCH · CL_119351 · Jun 30 · 17:46

新的CoMet方法改进了多模态LLM中的不确定性估计

研究人员推出了一种名为CoMet的新方法，用于估计多模态大型语言模型（MLLM）中的不确定性。CoMet将不确定性分解为特定于上下文和特定于多重性的项，从而无需重复采样或自回归生成即可进行高效估计。该方法在包括幻觉检测和视觉问答在内的各种基准测试中，在不确定性估计方面持续改进，同时保持了效率。
RESEARCH · CL_119362 · Jun 30 · 15:57

新的MARS方法利用文本拒绝指令增强多模态LLM安全性

研究人员开发了一种名为MARS（Modality-Agnostic Refusal Steering，跨模态无关拒绝引导）的新方法，以增强多模态大语言模型（MLLMs）的安全性。MARS利用通常用于单模态LLM的文本拒绝指令，在无需不安全的多模态训练数据的情况下提高安全性。该方法解决了跨模态对齐问题，并在保持效用的同时，在各种基准测试中持续展示了安全性的提升。
TOOL · CL_117679 · Jun 30 · 04:00

新的MuseBench基准揭示多模态大语言模型缺乏深层艺术理解能力

研究人员推出MuseBench，一个旨在评估多模态大语言模型（MLLMs）艺术理解能力的新基准。该基准包含超过4000个跨越不同视听艺术形式（包括电影、视觉艺术和游戏设计）的问题，侧重于对创意选择背后原因的推理，而非仅仅识别。目前最先进的多模态大语言模型在此领域表现出显著差距，最佳模型准确率仅为48.29%，而人类专家的准确率为87.18%。
TOOL · CL_117664 · Jun 30 · 04:00

新框架提升大语言模型图表数据提取准确性

研究人员开发了一个新的基准和训练框架，以提高多模态大语言模型（MLLMs）从图表图像中提取数据的能力。虽然当前的多模态大语言模型可以准确地从图表中重建表格结构，但它们在精确恢复数值方面常常遇到困难，尤其是在缺少标签的情况下。该框架受到人类逐步学习阅读图表方式的启发，显著提高了数值准确性，在一个拥有70亿参数的模型上达到了最先进的性能，并支持更可靠的混合式数据提取工作流程。
RESEARCH · CL_117446 · Jun 29 · 11:55

新的HiRes方法可从图像中准确识别电阻器值

研究人员开发了HiRes，一种新颖的分层级联管道，用于从图像中准确识别电阻器值。该方法集成了使用YOLOv8n的目标检测、使用UNet++和EfficientNet-B2的语义分割以及结构化几何解码。HiRes表现出高性能，实现了85.8%的端到端识别准确率，在具有挑战性的真实图像数据集上优于经典基线（CVResist）和最先进的MLLMs。
TOOL · CL_116014 · Jun 29 · 06:58

快手AI研究成果入选顶会ICML 2026

快手科技团队的多篇论文被顶尖的ICML 2026会议收录，其中一篇被评为“亮点论文”。这些研究成果涵盖了大型语言模型、强化学习、信息检索和计算机视觉等关键领域。这些贡献旨在提升AI的智能性、可控性和可解释性，并挖掘数据中更深层次的模式。
TOOL · CL_115748 · Jun 29 · 04:00

MLLMs利用内在不确定性提高视觉任务性能

研究人员开发了一个新颖的无训练框架，该框架利用多模态大语言模型（MLLMs）的内在不确定性来增强其在复杂视觉任务上的性能。核心思想是，当MLLM接收到相关的视觉信息时，其不确定性会降低，从而使其能够专注于信息量最大的数据。这种方法已成功应用于视觉搜索、长视频理解和时间定位，在无需特定任务训练的情况下，取得了与专门的、微调的系统相媲美的结果。
TOOL · CL_115672 · Jun 29 · 04:00

HiMu框架通过分层帧选择增强长视频问答能力

研究人员开发了HiMu，一个旨在改进长视频问答任务帧选择的新型框架。该无训练系统将复杂查询分解为分层逻辑树，利用专门的视觉和音频处理专家。HiMu的方法使用模糊逻辑对专家信号进行归一化和组合，以保持时间顺序和模态绑定，在Video-MME和LongVideoBench等基准测试中表现优于先前的方法。
TOOL · CL_115617 · Jun 29 · 04:00

新框架MER-R1通过双重思维协同提升多模态情感识别能力

研究人员开发了MER-R1，一个旨在通过协同慢速和快速思维过程来增强多模态情感识别（MER）的新型框架。与显式推理有时会影响准确性的传统方法不同，MER-R1利用强化学习来优化回忆和精确度。该框架将这两个目标分开，允许联合优化，并将慢速思维的输出与快速思维的直觉对齐，以抑制不正确的预测。在MER-UniBench和MME-Emotion数据集上的实验表明，MER-R1取得了最先进的性能，使推理成为情感识别的有益组成部分。
RESEARCH · CL_117345 · Jun 29 · 01:31

研究发现，MLLMs在美学评论风格上难以匹敌人类

一篇新的研究论文探讨了多模态大语言模型（MLLMs）生成美学评论的能力，并将其输出与人类评估进行比较。该研究利用Reddit照片评论数据集，在各种提示条件下评估了五个开放权重MLLMs。研究结果表明，虽然MLLMs可以生成全面的评论，但其风格与人类评估存在显著差异，通常更冗长、选择性更差，这对当前的评估指标提出了挑战。

新的POPS方法从MLLM中恢复未学习的私有数据

Omni-RRM 通过自动化的评分标准引导奖励来推进多模态 LLM 对齐

新的 HoloCount 基准揭示 MLLM 计数局限性 · 已追踪 2 个来源

新框架SparseCtrl-HOI使用稀疏关键帧进行人与物体交互视频生成

新的GuideMe基准测试MLLM的实时视频任务指导能力

新的K9-Bench基准测试在狗视频上测试多模态大语言模型

SPAR框架统一多模态模型，增强视觉理解和生成能力

新的NarrativeTrack基准测试MLLMs在视频中的以实体为中心的推理能力

新的EgoGapBench基准测试突显了大型语言模型在以自我为中心的动作选择方面存在的困难

Splash 框架赋能 MLLMs 学习触觉感知，且不遗忘视觉语言技能

新的CoMet方法改进了多模态LLM中的不确定性估计

新的MARS方法利用文本拒绝指令增强多模态LLM安全性

新的MuseBench基准揭示多模态大语言模型缺乏深层艺术理解能力

新框架提升大语言模型图表数据提取准确性

新的HiRes方法可从图像中准确识别电阻器值

快手AI研究成果入选顶会ICML 2026

MLLMs利用内在不确定性提高视觉任务性能

HiMu框架通过分层帧选择增强长视频问答能力

新框架MER-R1通过双重思维协同提升多模态情感识别能力

研究发现，MLLMs在美学评论风格上难以匹敌人类