实体 Multimodal LLMs

Multimodal LLMs

PulseAugur coverage of Multimodal LLMs — every cluster mentioning Multimodal LLMs across labs, papers, and developer communities, ranked by signal.

总计 · 30天

11

90 天内 11

发布 · 30天

0

90 天内 0

论文 · 30天

11

90 天内 11

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 11 条

RESEARCH · CL_128688 · Jul 3 · 00:00

新的“MentalThink”范式使用SVG进行LLM视觉推理

研究人员推出了一种新范式MentalThink，通过生成和解释可缩放矢量图形（SVG）代码，增强了多模态大型语言模型（MLLMs）的视觉符号推理能力。这种“用SVG思考”的流程允许模型创建、渲染和分析结构化矢量草图，作为多轮推理的中间视觉表示。该方法在空间理解和推理基准测试中表现出色，表明可执行矢量图形可以为复杂的认知任务提供可验证的视觉工作空间。
RESEARCH · CL_119362 · Jun 30 · 15:57

新的MARS方法利用文本拒绝指令增强多模态LLM安全性

研究人员开发了一种名为MARS（Modality-Agnostic Refusal Steering，跨模态无关拒绝引导）的新方法，以增强多模态大语言模型（MLLMs）的安全性。MARS利用通常用于单模态LLM的文本拒绝指令，在无需不安全的多模态训练数据的情况下提高安全性。该方法解决了跨模态对齐问题，并在保持效用的同时，在各种基准测试中持续展示了安全性的提升。
TOOL · CL_117762 · Jun 30 · 04:00

新的可控视觉表示允许对图像特征进行自然语言引导

研究人员引入了一类新的视觉表示，称为可控视觉表示（Steerable Visual Representations），旨在允许对图像特征进行自然语言引导。与现有关注显著线索或在以语言为中心的输出方面效果不佳的方法不同，该方法通过交叉注意力（cross-attention）的早期融合，将文本直接注入视觉编码器层。这使得表示能够关注图像中的任何所需对象，同时保持底层质量，在异常检测和个性化对象判别等任务上表现强劲。
TOOL · CL_117664 · Jun 30 · 04:00

新框架提升大语言模型图表数据提取准确性

研究人员开发了一个新的基准和训练框架，以提高多模态大语言模型（MLLMs）从图表图像中提取数据的能力。虽然当前的多模态大语言模型可以准确地从图表中重建表格结构，但它们在精确恢复数值方面常常遇到困难，尤其是在缺少标签的情况下。该框架受到人类逐步学习阅读图表方式的启发，显著提高了数值准确性，在一个拥有70亿参数的模型上达到了最先进的性能，并支持更可靠的混合式数据提取工作流程。
TOOL · CL_90672 · Jun 14 · 23:10

多模态大模型通过多样化数据类型增强理解能力

多模态应用是处理和生成文本、图像、音频等多种数据类型的系统，使大模型能够更像人类一样理解世界。Conceptual Captions和Visual Genome等数据集对于训练这些模型至关重要。关键概念包括模态对齐（使用注意力机制和跨模态融合等技术创建共享表示）以及跨模态学习（在不同模态之间迁移知识）。这些应用在图像字幕生成、视觉问答以及更直观的人机交互等方面具有实际用途。
RESEARCH · CL_84429 · Jun 10 · 09:30

新的ART技术通过优化视觉输入来微调多模态大语言模型

研究人员开发了一种新的参数高效微调技术，用于多模态大语言模型，称为ART（基于艺术的强化训练）。与修改计算图的现有方法不同，ART仅优化冻结模型的原始视觉输入。这种方法允许在预编译的高吞吐量引擎上进行微调，并将优化后的视觉输入风格化为计算艺术品。ART在数学和结构化工具使用基准测试中已显示出与LoRA相当的准确性，证实了其在各种Qwen模型尺寸上的有效性。
TOOL · CL_65824 · Jun 2 · 04:00

AI模型在科学声明验证中未能路由图表数据

研究人员已经发现了多模态大语言模型在验证图表中呈现的科学声明时，为何不如表格那样有效。通过对三个开源VLMs进行逐层线性探测和注意力分析，他们发现图表中的信息被编码在模型的中间表示中，但未能到达预测层。这种与表格情况不同的断开表明，问题不在于编码视觉数据，而在于有效地将其路由以进行预测。
RESEARCH · CL_63070 · May 29 · 12:01

语言模型增强深度伪造检测器的泛化能力和可解释性

研究人员开发了一种新颖的方法，通过利用多模态大型语言模型（MLLMs）来训练深度伪造检测器。该方法使用语言作为正则化机制，以提高检测器的泛化能力和可解释性。该系统采用双编码器架构和两阶段训练过程，包括强化学习以鼓励分类前的描述性推理，从而显著提高性能并提供可解释的输出。
RESEARCH · CL_38225 · May 18 · 17:57

多模态 LLM 通过新的时序、数据和视觉技术取得进展

研究人员正在开发能够处理和整合文本、音频和视频等各种数据类型的多模态大型语言模型（MLLM）。一种名为 MM-When2Speak 的方法侧重于通过预测何时应进行简短反应或完整回应来改进对话时序，性能提升三倍。其他研究则探索仅使用成对模态来训练 MLLM，以减少数据整理工作量，并通过自我蒸馏技术解决细粒度视觉理解的挑战。这些进展旨在创建更自然、更具吸引力、更强大的 AI 系统，使其能够更好地感知和与现实世界互动。
RESEARCH · CL_28027 · May 11 · 11:38

新数据集针对耸人听闻图像检测以进行虚假信息分析

研究人员推出了 Sens-VisualNews，这是一个新基准数据集，用于检测图像中的耸人听闻内容。该数据集包含来自新闻报道的 9,500 多张图像，并针对各种耸人听闻的概念进行了标注。该资源旨在推进对识别可能绕过批判性评估并加速病毒式传播的令人震惊或情绪化的视觉内容的研究，可能有助于检测虚假信息。
RESEARCH · CL_06298 · Apr 26 · 19:16

LLM大脑对齐随训练数据和任务特异性而变化

研究人员正在探索大型语言模型（LLM）如何在不同语言和任务中与人类大脑活动对齐。研究表明，LLM的中间层最能预测大脑反应，并且这种对齐受训练数据语言主导地位的影响，而非模型本身的类型。此外，经过指令微调的多模态LLM表现出更强的大脑对齐能力，尤其是在围绕特定任务需求而非仅仅表面语义进行组织时。