multimodal large language model

新的MTLA方法可提高MLLM置信度并减少幻觉 · 跟踪到2个来源

研究人员开发了一种名为多令牌局部注意力（MTLA）的新方法，以提高多模态大型语言模型（MLLM）对其局部预测的置信度。这种无需训练的、事后评分方法可以衡量预测的令牌在多大程度上关注它们声称的特定区域，从而提供比传统令牌对数概率更强的信号。MTLA在减少跨多种模态和任务的幻觉方面表现出显著的改进，并且在用于重新排序时，它能显著提高通用MLLM在目标检测等任务上的性能。

TOOL · CL_129379 · Jul 7 · 04:00

新框架EmoteGPT根据文本生成3D人脸表情

研究人员推出EmoteGPT，一个用于从自然语言描述生成3D人脸表情的新颖框架。该系统利用一个多模态大型语言模型，通过一个专门的token将文本输入转换为3D可变形模型（3D Morphable Model）的参数。该框架在一个名为Txt2Emote的新基准数据集上进行了训练，该数据集包含详细的表情文本注释，并进一步使用了图像到3DMM的数据进行增强。与现有的文本到3D人脸合成方法相比，EmoteGPT在表现力和情感识别方面表现出卓越的性能。

TOOL · CL_129040 · Jul 7 · 04:00

MetricAnything框架将度量深度估计从嘈杂的3D数据中扩展出来

研究人员推出了MetricAnything，一个新颖的预训练框架，旨在从嘈杂且多样化的3D数据源扩展度量深度估计。该方法利用稀疏度量提示（Sparse Metric Prompt），它会掩码深度图，创建一个通用的接口，绕过了手动提示或特定相机建模的需求。该框架已在度量深度方面展现出清晰的扩展趋势，在各种3D重建和感知任务中取得了最先进的成果，并增强了多模态大语言模型在空间智能方面的能力。

TOOL · CL_128809 · Jul 7 · 04:00

OpenGlass系统为视障人士提供本地MLLM视觉辅助

研究人员开发了OpenGlass，一个旨在为视障人士提供实时视觉辅助的开源系统。该系统采用分离式架构，由一个安装在眼镜上的单元捕捉视觉数据，一个附近的设备执行本地多模态大语言模型（MLLM）推理。这种方法旨在减少对云服务的依赖，通过将数据保留在本地来增强隐私，并最小化延迟，通过优化的负载实现了993毫秒的用户到音频的中值延迟。

TOOL · CL_128763 · Jul 7 · 04:00

新基准测试AI在纠缠数据下的隐私遗忘能力

研究人员推出PPE-Bench，一个旨在评估多模态大语言模型（MLLMs）机器学习遗忘技术有效性的新基准。现有基准未能充分解决问题，它们使用简化的图像并假设私有数据和公共数据之间完全分离。PPE-Bench通过整合私有信息与公众人物或地标视觉纠缠的图像来解决这些问题，旨在测试遗忘能力而不损害公共信息的保留。实验表明，当前的遗忘方法可以减少私有数据泄露，但通常会对公共信息的保留产生负面影响。

RESEARCH · CL_131490 · Jul 7 · 03:50

新的SegAnswer方法通过像素级分割增强MLLM的视觉推理能力

研究人员推出了一种用于多模态大语言模型（MLLMs）的新型方法SegAnswer，该方法使用像素级分割掩码而非边界框来进行视觉推理。这种方法通过过滤掉背景噪声和不相关对象，使MLLMs能够专注于精确的感兴趣区域，从而实现更准确的视觉理解。实验表明，SegAnswer在各种基准测试中持续提高性能，并增强了分割能力。

RESEARCH · CL_128660 · Jul 6 · 08:10

DGSeg框架通过动态线索融合增强推理分割

研究人员推出了一种新颖的推理分割框架DGSeg，它提高了基于复杂语言查询的像素级掩码预测的准确性。与以往将推理压缩为稀疏线索的方法不同，DGSeg利用多模态大语言模型生成独立的语义和空间线索。这些线索随后输入到不同的分割分支，其预测由动态门控模块自适应地融合，以减轻噪声和冲突信息。据报道，该框架在多个基准测试中优于现有方法，在ReasonSeg数据集上取得了高gIoU分数。

TOOL · CL_122981 · Jul 3 · 04:00

新型MMIR-TCM框架提升中医临床决策支持

研究人员开发了MMIR-TCM，一个旨在通过解决视觉舌象特征与文本推理之间的语义鸿沟来改进中医临床决策支持的新框架。该框架集成了多模态大语言模型（MLLM）以及内存增强分割和检索增强生成（RAG）。它采用三阶段架构，包括用于舌象提取的内存-SAM模块，用于诊断生成的微调Qwen3-VL模型，以及用于证据支持的基于Qwen3的RAG组件。MMIR-TCM使用了一个新的大规模多模态数据集MedTCM进行开发和验证，并使用了一个名为TDEU…

TOOL · CL_122988 · Jul 2 · 10:10

ScopeEdit通过控制知识传播来增强多模态LLM编辑

研究人员推出了一种新颖的多模态在线知识编辑方法ScopeEdit，用于大型语言模型（MLLM）。该方法旨在控制每次编辑的语义范围，确保更正能够迁移到相关的跨模态变体，而不会对不相关的输入产生负面影响。ScopeEdit将更新分解为模态局部和共享泛化分支，利用正交低秩空间和Sherman-Morrison递归来实现高效、有界开销。实验表明，ScopeEdit在各种基准测试和MLLM架构中，在范围内的迁移和范围外的局部性之间的平衡方面是有效的。

RESEARCH · CL_123289 · Jul 2 · 05:46

新的ReQuest管道增强了长视频问答的LLM能力

研究人员开发了ReQuest，这是一个旨在提高长视频问答能力的新型管道。该方法通过采用一种由不确定性驱动的、适应性问题选择关键帧的过程，解决了多模态大型语言模型中固定输入令牌预算的限制。ReQuest集成了一个轻量级选择器、一个根据模型不确定性触发额外推理的路由机制，以及一种自适应非最大抑制技术来选择相关且时间上多样化的帧。该系统作为一个即插即用解决方案，在Video-MME、MLVU和LongVideoBench等基准测试上提高了性…

TOOL · CL_119574 · Jul 1 · 04:00

新的GUI-AIMA框架增强了多模态LLM的基础能力

研究人员开发了GUI-AIMA，一个用于改进多模态大语言模型（MLLMs）中图形用户界面（GUI）基础的新型框架。这种基于注意力的方法将内在多模态注意力与逐块基础信号对齐，实现了更高效、数据量更少（data-light）的训练。GUI-AIMA-3B仅用509k个样本就达到了3B模型中的最先进性能，展示了显著的数据效率。

TOOL · CL_118134 · Jun 30 · 04:00

EraseLoRA框架使用MLLM进行无数据集对象移除

研究人员开发了EraseLoRA，一种用于图像无数据集对象移除的新型框架。该方法利用多模态大语言模型来区分目标前景、其他前景元素和背景。然后，它采用一种感知背景的重建过程，聚合各种背景子类型以确保忠实集成，在背景保真度方面优于以前的无数据集技术，并减少了不希望的前景再生。

TOOL · CL_118025 · Jun 30 · 04:00

新的SEAR框架通过双过程AI增强图像修复

研究人员推出了一种名为自演进代理图像修复（SEAR）的新型框架，旨在应对复杂的图像修复挑战。SEAR采用了一种受人类认知启发的双过程方法，包括用于长时程推理的深思熟虑规划器（Deliberate Planner）和用于快速决策的直观执行器（Intuitive Executor）。深思熟虑规划器利用了修剪感知蒙特卡洛树搜索（Pruning-Aware Monte Carlo Tree Search）和多模态大语言模型（MLLM）来平衡探…

TOOL · CL_117722 · Jun 30 · 04:00

EfficientUICoder框架大幅降低MLLM UI代码生成成本

研究人员开发了EfficientUICoder，一个旨在降低与用于UI代码生成的多模态大语言模型（MLLM）相关的计算开销的框架。该框架采用三个关键组件：感知元素和布局的令牌压缩、感知区域的令牌精炼以及自适应重复令牌抑制。这些方法共同实现了UI令牌55%-60%的压缩率，且不降低网页质量，从而在效率方面取得了显著改进，包括34B级别MLLM的计算成本降低44.9%，推理时间减少48.8%。

RESEARCH · CL_117415 · Jun 29 · 17:38

Goku 数据集和基准推动指令驱动视频编辑发展 · 跟踪 4 个来源

研究人员推出了 Goku，一个用于指令驱动视频编辑的大规模数据集和基准，旨在克服现有数据集仅关注单一任务外观编辑的局限性。Goku 包含 200 万个高质量视频编辑对，支持多任务和结构化操作，如精确的主题移动控制。配套的 Goku-Edit 模型采用多模态大语言模型进行指令理解，并采用双分支设计进行结构和外观编辑。还发布了一个基准 Goku-Bench，包含 1,000 个经人类验证的案例和 7 个新指标，结果显示 Goku-Edit…

RESEARCH · CL_117316 · Jun 29 · 12:17

新基准SHOVIR旨在解决放射学AI中的视觉捷径学习问题

研究人员推出SHOVIR，这是一个旨在评估放射学报告生成（RRG）模型中视觉捷径学习的新基准。当前的RRG评估方法常常无法判断诊断陈述是否基于实际的视觉证据，导致模型利用虚假关联。SHOVIR通过使用带注释的数据集和遮挡实验来识别直接和上下文捷径，揭示了高性能模型可能仍然依赖肤浅的视觉证据。这项工作突显了RRG评估中的一个关键差距，并提倡使用区域感知评估协议。

RESEARCH · CL_117116 · Jun 29 · 00:00

InnerZoom框架在单次前向传播中实现SOTA GUI基础定位 · 跟踪3个来源

研究人员开发了InnerZoom，一个新颖的框架，用于在单次前向传播中实现准确高效的GUI基础定位。该方法通过在解码器层之间保留目标区域感知来解决现有多模态大语言模型（MLLM）方法的局限性，这对于GUI交互中精确坐标的生成至关重要。InnerZoom在多个基准测试中取得了最先进的性能，在提高精度的同时降低了计算成本和延迟。

RESEARCH · CL_115188 · Jun 26 · 14:46

New CG-ICS method enhances in-context segmentation robustness

研究人员提出了一种名为概念引导的上下文内分割（CG-ICS）的新方法，以提高上下文内分割模型的鲁棒性。该方法利用多模态大语言模型（MLLM）从参考图像中提取高级语义概念，而不是仅仅依赖低级视觉匹配。CG-ICS系统使用这些概念以及视觉示例来激活一个冻结的SAM3骨干网络进行分割。实验表明，CG-ICS不仅达到了最先进的准确性，而且通过减少不同参考选择下的分割结果方差，显著增强了鲁棒性。

RESEARCH · CL_115209 · Jun 26 · 10:20

新框架SD-GPS通过求解器驱动的自动形式化增强几何问题求解能力

研究人员推出了一种新颖的几何问题求解框架SD-GPS，该框架将神经直觉与符号推理相结合。该方法通过使用符号求解器作为执行神谕来解决自动形式化和定理预测中的瓶颈。该框架采用求解器驱动的自动形式化，以可执行性作为训练信号，并通过验证定理证明生成和验证辅助引理以克服演绎僵局。在基准数据集上的评估表明，SD-GPS的性能优于现有方法，突显了将多模态感知与形式系统相结合以实现可验证问题求解的好处。

TOOL · CL_111792 · Jun 26 · 04:00

DocArena 管道自动化文档搜索代理训练环境

研究人员开发了 DocArena，一个新颖的管道，可自动将原始文档集合转化为搜索代理的训练环境。该系统利用多模态大语言模型 (MLLMs) 进行视觉感知和问答对生成，无需人工标注。由此产生的 DocArena-79K 数据集包含跨越不同领域和语言的 8,000 多份文档，已用于训练 Doc-Search 代理。实验表明，在 DocArena 数据上训练的代理在检索准确性和问答质量方面均优于在基于文本的环境中训练的代理。