实体 Multimodal Large Language Models (MLLMs)

Multimodal Large Language Models (MLLMs)

PulseAugur coverage of Multimodal Large Language Models (MLLMs) — every cluster mentioning Multimodal Large Language Models (MLLMs) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 7

发布 · 30天

90 天内 0

论文 · 30天

90 天内 7

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

TOOL · CL_158562 · Jul 23 · 04:00

新的D3VL框架将3D LiDAR数据集成到大型语言模型中，用于自动驾驶

研究人员推出了D3VL，一个旨在通过整合2D视频数据和3D传感器信息（特别是来自LiDAR的）来增强自动驾驶多模态大型语言模型（MLLMs）的新框架。该方法解决了将稀疏且非结构化的LiDAR数据整合到通常专注于2D图像的MLLMs中的常见挑战。D3VL在KITTI问答（QA）数据集上展示了11%的改进，并引入了一个扩展的Waymo QA数据集来评估3D和时间序列数据处理能力。
RESEARCH · CL_141814 · Jul 14 · 04:00

新框架应对 AI 生成图像检测挑战 · 跟踪 4 个来源

研究人员正在开发先进的方法来检测 AI 生成的图像，以应对深度伪造带来的社会风险。一种名为 GlobalForge 的方法侧重于鲁棒的全局结构推理，而不是脆弱的局部伪影，即使在 JPEG 压缩等图像降级后也能提高性能。另一个框架 EvoGuard 利用基于代理的强化学习方法从多个现有检测器合成证据，提供了可扩展性和更高的准确性，而无需细粒度注释。
RESEARCH · CL_131402 · Jul 7 · 16:28

新的基准和模型推动了人工智能中以自我为中心的视频理解能力

研究人员正在开发新的方法和基准来提高多模态大语言模型（MLLMs）的时间和空间推理能力，特别是针对以自我为中心的视频理解。论文介绍了时间全局策略优化（TGPO）等技术来增强时间感知能力，以及Whareformer等模型用于跟踪长时以自我为中心的视频中的对象。新的基准，如EgoPolice和EgoExoMem，正在被创建，以在具有挑战性的数据集上评估这些模型，包括警方佩戴的摄像机录像和同步的以自我为中心/以外的视频对，突显了即使是像Ge…
RESEARCH · CL_76916 · Jun 5 · 11:41

新方法通过漂移敏感数据增强多模态大语言模型隐私

研究人员开发了Anchored Privacy Drifting (APD)，一种新颖的无需训练的方法，用于增强多模态大语言模型（MLLMs）的隐私。APD通过在保留关键情境线索的同时，对隐私敏感元素进行语义修改，来解决用户输入和视觉情境可能包含敏感信息的挑战。使用AdaptShield（一个旨在评估隐私保护和情境效用的新基准）对APD的有效性进行了评估，结果显示在多个MLLM系列中均有显著改进。
TOOL · CL_65659 · Jun 2 · 04:00

新的 UI-in-the-Loop 范式增强了 LLM GUI 推理能力

研究人员引入了一种名为 UI-in-the-Loop (UILoop) 的新范式，以改进多模态大语言模型 (MLLMs) 理解和交互图形用户界面 (GUIs) 的方式。该方法将 GUI 推理视为一个涉及屏幕元素的循环过程，使 MLLMs 能够学习 UI 组件的定位、语义功能和用法，从而实现更精确和可解释的推理。为了评估这一点，开发了一个包含 26,000 个样本的新基准 UI Comprehension-Bench，该基准证明了 UI…
TOOL · CL_27988 · May 11 · 15:59

DRAPE框架为多模态LLM生成实例特定的提示

研究人员开发了DRAPE，一个用于多模态持续指令微调（MCIT）的新型框架，该框架为多模态大型语言模型生成实例特定的软提示。与依赖任务级提示的现有方法不同，DRAPE通过对文本指令和视觉特征进行条件化，合成针对单个查询-图像对定制的连续提示。该框架还采用了空空间梯度投影和基于CLIP的原型路由等技术，以防止在顺序任务获取过程中发生灾难性遗忘，并在MCIT基准测试中取得了最先进的成果。
TOOL · CL_28261 · May 11 · 11:28

GuardAD 通过动态逻辑增强自动驾驶 MLLM 的安全性

研究人员开发了 GuardAD，一种增强自动驾驶系统所用多模态大语言模型 (MLLM) 安全性的新方法。GuardAD 采用动态的、马尔可夫逻辑状态方法来推理不断变化的交通交互，解决了当前静态安全机制的局限性。这使得系统能够在超出即时观察范围的情况下推断潜在危险，并在不改变核心 MLLM 的情况下主动优化行为，从而显著降低事故率。

新的D3VL框架将3D LiDAR数据集成到大型语言模型中，用于自动驾驶

新框架应对 AI 生成图像检测挑战 · 跟踪 4 个来源

新的基准和模型推动了人工智能中以自我为中心的视频理解能力

新方法通过漂移敏感数据增强多模态大语言模型隐私

新的 UI-in-the-Loop 范式增强了 LLM GUI 推理能力

DRAPE框架为多模态LLM生成实例特定的提示

GuardAD 通过动态逻辑增强自动驾驶 MLLM 的安全性