Large Multimodal Models

新的HART技术使大型多模态模型（LMM）能够在无标注的情况下对高分辨率图像进行推理

研究人员开发了一种名为HART（High-resolution Annotation-free Reasoning Technique，高分辨率无标注推理技术）的新技术，以改进大型多模态模型（LMM）处理高分辨率图像的方式。当前LMM在处理高分辨率图像生成的大量token时遇到困难，通常需要昂贵的人工标注来识别重要区域。HART采用闭环框架和一种称为AP-GRPO的策略优化方法，使LMM能够在没有外部监督的情况下自我验证关键区域。在多…

RESEARCH · CL_133135 · Jul 8 · 11:33

CarbonCLIP 使用 LMMs 改进基于卫星的碳排放预测

研究人员开发了 CarbonCLIP，一个旨在提高卫星图像碳排放预测准确性的新框架。该方法集成了街景语义和时间上下文，弥合了自上而下的卫星视图与地面人类活动之间的差距。通过利用大型多模态模型 (LMMs) 从街景数据生成语义先验并纳入月度排放变化，CarbonCLIP 为城市碳建模提供了强大的解决方案。在北京和新加坡进行的实验表明，CarbonCLIP 的性能优于现有方法，即使在推理期间地面数据不可用时，也提供了可扩展的部署选项。

RESEARCH · CL_131399 · Jul 7 · 17:39

CAIRN模型推进多房间三维场景理解

研究人员推出CAIRN，这是一种新颖的拓扑感知大型多模态模型，用于理解复杂的多房间三维场景。与以往仅限于单房间的模型不同，CAIRN明确地推理物体关系和房间连通性。它通过集成图神经网络和学习到的房间令牌来实现这一点，从而实现尊重场景拓扑的层次化注意力。CAIRN在新推出的CAIRN-MR基准上进行了评估，在多房间任务上展示了比现有3D-LLM显著的性能提升。

RESEARCH · CL_129070 · Jul 7 · 04:00

新的基准和数据集推动音频、图像和视频的深度伪造检测

研究人员推出了几个新的数据集和基准，旨在改进跨各种媒体的深度伪造检测。Echoes 专注于音乐深度伪造，强调语义对齐和提供商多样性，以创建更强大的检测模型。VendorBench-100 提供了一个统一的框架，用于评估商业 API、视觉语言模型和开源检测器中的深度伪造图像检测，突出了性能差异和指标分歧。HumanForge 采用以人为中心的方法来检测深度伪造视频，使用多代理管道进行注释，并专注于人与物体以及人与人之间的交互。此外，…

RESEARCH · CL_129436 · Jul 7 · 04:00

新方法增强多模态工业异常检测 · 已追踪2个来源

研究人员开发了两种不同的方法来改进多模态工业异常检测。第一种方法，调谐反向蒸馏（TRD），利用多分支设计和跨模态调谐器来增强正常特征的学习，同时有效检测不同模态的异常。第二种方法，全球逻辑与局部搜索（GLLS），是一个无训练框架，利用大型多模态模型和蒙特卡洛树搜索进行可验证的异常检测，在推理上下文中组织参考和规范。这两种方法都旨在推进工业环境中识别缺陷的最新技术水平。

TOOL · CL_128765 · Jul 7 · 04:00

New Regularizer Enhances Taxonomic Knowledge in Large Multimodal Models

研究人员开发了一种名为分层表示正则化（$HiR^2$）的新方法，以提高大型多模态模型（LMMs）的分类知识。当前的LMMs通常缺乏对概念之间语义关系的理解，导致在分层视觉识别方面存在不一致。$HiR^2$引入了一个语义感知的视觉树构建框架，该框架从中间LLM层提取特征。该正则化器包括一个分类蕴含损失和一个判别性分散损失，以强制执行分层一致性并促进相似嵌入的分离。

RESEARCH · CL_128910 · Jul 7 · 00:00

SenseNova-Vision 将计算机视觉任务统一为多模态生成 · 跟踪 6 个来源

研究人员开发了 SenseNova-Vision，一个统一的多模态模型，将所有计算机视觉任务视为生成问题。该方法使用自然语言指令和视觉提示来指定任务，允许模型生成文本、图像或两者的组合。该模型在新创建的 SenseNova-Vision Corpus 上进行训练，在包括检测、分割和姿态估计在内的广泛视觉任务上的性能可与专业系统相媲美。这项工作表明，统一的多模态生成是将各种计算机视觉能力集成到通用基础模型中的可扩展方法，该模型和语料库现已公开提供。

RESEARCH · CL_129477 · Jul 6 · 03:39

新框架SAYRE合成数据以提升多模态KIE模型

研究人员开发了SAYRE，一个用于合成训练数据以提高大型多模态模型（LMMs）关键信息提取（KIE）能力的新框架。这种场景感知的合成方法从示例文档中生成文档-模式-标注三元组，捕捉内容模式和布局约定。SAYRE还结合了错误驱动生成，以基于真实世界的失败案例创建具有挑战性的训练示例。实验表明，SAYRE显著增强了Qwen3-VL等模型，提高了性能，特别是在设备端LMMs和开放类别提取任务上。

TOOL · CL_123075 · Jul 2 · 12:55

新的vLLM流水线统一音频生成与理解

研究人员开发了一种利用vLLM统一音频理解和生成任务的新型推理流水线。该系统解决了高吞吐量多模态生成所面临的挑战，特别是对于采用复杂解码策略（如AR+NAR或多令牌预测）的语音语言模型。该流水线集成了片上声学解码器，用于端到端波形合成，并通过联合调度条件和无条件请求来优化无分类器引导，从而将吞吐量维持在非CFG吞吐量的约80%。

RESEARCH · CL_128737 · Jul 2 · 00:00

新的AI框架通过先进的记忆和推理能力解决长视频理解问题

研究人员正在开发先进的框架，以改进AI模型理解和推理长视频的方式。例如，Homer使用分层记忆系统，按时间因果联系组织信息，在M3-Bench-robot等基准测试中表现优于现有方法。Latent-VC通过在解码器中保留视觉记忆来解决“视觉锚定衰减”问题，从而实现更准确、更简洁的视频推理。EGAgent采用实体场景图和代理规划来实现以自我为中心的视频理解，而Light-Omni则提供了一种具有双重上下文状态以实现高效处理的反射式、轻量…

RESEARCH · CL_111283 · Jun 25 · 15:50

新的HarmVideoBench评估大型语言模型对细微有害视频的理解能力 · 跟踪2个来源

研究人员推出了HarmVideoBench，这是一个旨在评估大型视觉语言模型（LVLMs）有害视频理解能力的新基准。现有的基准通常将有害内容过度简化为二元分类，并且缺乏解释性理由，导致评估结果不透明。HarmVideoBench通过提供一个多层次的诊断方法，包含1,379个视频和4,137个多项选择题，来评估模型在可观察证据、剪辑内部含义和剪辑外推理方面的能力，从而解决了这些局限性。该基准还引入了BCR方法，通过预测推理边界并动态检索…

TOOL · CL_108142 · Jun 24 · 04:00

新的大模型“PreciseDoc”提高了文档元素定位的准确性

研究人员开发了PreciseDoc，这是一种新开发的大多模态模型（LMM），旨在提高在文档中精确定位特定元素的能力。现有模型在文本密集型文档图像的精确局部化方面存在困难，阻碍了可靠的推理。PreciseDoc通过使用专门构建的训练数据（包括具有细粒度坐标元数据的合成文档）来解决这个问题，并采用视觉定位推理与强化学习的联合训练范式。评估表明，它在文档空间定位和理解任务方面表现更优。

RESEARCH · CL_86751 · Jun 11 · 06:09

PRISMR框架增强LMM在多模态列表式排序中的能力

研究人员开发了PRISMR，一个旨在提高大型多模态模型（LMMs）在列表式排序任务中性能的新框架，特别是在长上下文场景下。PRISMR解决了被称为“解析崩溃”的失效模式，在这种模式下，LMMs可能会遗漏候选项目或过早终止排序。该框架利用超网络生成特定项目的LoRA权重，从而在不改变基础LMM的情况下实现更鲁棒的结构化条件。这种方法在新发布的多模态评论排序基准测试中，在减少解析崩溃和提高排序准确性方面显示出显著的改进。

TOOL · CL_80226 · Jun 9 · 04:00

新方法利用位置注意力和LMM进行全球图像地理定位

研究人员开发了TransGeoCLIP，一个利用位置注意力机制和大语言多模态模型进行全球图像地理定位的新框架。该方法旨在通过区分视觉相似图像中的地理特征来提高准确性，这是现有技术面临的常见挑战。TransGeoCLIP提高了街景级别的定位精度，在多个基准数据集上与当前最先进的方法相比，性能有了显著提升。

TOOL · CL_65649 · Jun 2 · 04:00

研究人员在大型多模态模型中分离出视觉关系向量

研究人员已在大型多模态模型（LMMs）中识别出对处理视觉关系至关重要的特定注意力头。通过提取和操纵这些“函数向量”，他们可以提高模型在关系任务上的零样本准确率。这种方法允许在不改变LMM主参数的情况下对这些向量进行微调，其性能优于标准的上下文学习方法，并展示了强大的视觉类比问题泛化能力。

TOOL · CL_53658 · May 27 · 04:00

新基准揭示大型多模态模型难以应对真实高中考试

一个名为 LiveK12Bench 的新基准已被开发出来，用于评估大型多模态模型（LMMs）在高中水平考试中的能力。这个动态的、跨学科的基准包含来自近期真实考试试卷的 2,000 多个问题，涵盖数学、物理、化学和生物学。使用 LiveK12Bench 进行的实验显示，GPT-5 等先进模型的性能显著下降，凸显了它们理想化推理与教育应用准备度之间的差距。

TOOL · CL_51150 · May 26 · 04:00

新基准 M3-Verse 测试 LMM 在动态视频场景变化上的能力

研究人员推出了 M3-Verse，一个旨在测试大型多模态模型（LMM）理解视频场景动态变化能力的新基准。该基准包含室内场景在状态改变前后的配对视频，涵盖 50 个子任务的 2,900 多个问题。对 16 个最先进 LMM 的初步评估显示，它们在跟踪这些转换方面存在显著局限性，促使开发了一个新的基线模型，该模型表现出改进的性能。

RESEARCH · CL_53650 · May 25 · 00:00

New Benchmark Tests LMMs' Creative Physical Intelligence

研究人员开发了MM-CreativityBench，这是一个旨在评估大型多模态模型（LMM）的创造性物理智能的新基准。该基准侧重于LMM在视觉丰富、物理约束环境中的识别和再利用对象的能力，这是当前模型通常缺乏的一项能力。为了解决这个问题，研究人员提出了一种使用直接偏好优化（Direct Preference Optimization）的具身对齐方法，鼓励模型依赖视觉证据并减少幻觉，从而提高实体选择和具身推理能力。

TOOL · CL_45083 · May 22 · 04:00

LongVT框架通过工具调用增强AI视频推理能力

研究人员开发了LongVT，一个旨在改进大型多模态模型（LMM）处理和推理长视频方式的新框架。该方法通过先浏览整个视频，然后聚焦于特定片段以获取细节来模仿人类理解，并利用LMM的原生时间定位能力作为放大相关片段的工具。为了支持这一点，一个新的名为VideoSIAH的数据集已被整理，其中包含超过247,000个用于监督微调的样本以及用于强化学习的额外数据，还有一个包含1,280个问答对的基准测试。LongVT在几个具有挑战性的长视频理解…

TOOL · CL_41291 · May 20 · 18:01

AWS Strands Evals 为图像到文本任务添加多模态裁判

Amazon Web Services 推出了其 Strands Evals SDK 的新型多模态评估器，旨在评估图像到文本任务。这些工具利用大型多模态模型 (MLMM) 通过直接引用源图像来判断响应，解决了纯文本评估方法的局限性。评估器可以识别视觉幻觉和事实错误，并集成到现有的开发工作流程中以实现自动化质量控制。