Unified Multimodal Models

SenseNova-Vision 将计算机视觉任务统一为多模态生成 · 跟踪 6 个来源

研究人员开发了 SenseNova-Vision，一个统一的多模态模型，将所有计算机视觉任务视为生成问题。该方法使用自然语言指令和视觉提示来指定任务，允许模型生成文本、图像或两者的组合。该模型在新创建的 SenseNova-Vision Corpus 上进行训练，在包括检测、分割和姿态估计在内的广泛视觉任务上的性能可与专业系统相媲美。这项工作表明，统一的多模态生成是将各种计算机视觉能力集成到通用基础模型中的可扩展方法，该模型和语料库现已公开提供。

RESEARCH · CL_117463 · Jun 26 · 00:00

新框架通过保留知识和改进生成来增强多模态AI

研究人员正在开发新框架以增强多模态AI模型。Rosetta 引入了一种可组合的预训练方法，可以在不破坏现有知识的情况下添加新模态并保留核心知识，使用动量锚定正交投影来管理梯度冲突。COMPASS 在统一系统中将组合意图控制进行接地，通过使用共享的专家令牌来同时改进感知和生成。SRUM 使统一的多模态模型能够通过使用其理解模块作为内部评估器来改进其生成能力，采用双重奖励系统来保证全局和局部保真度。此外，ReVisIT 提供了一种无需训练…

RESEARCH · CL_105280 · Jun 22 · 08:48

新方法增强了用于图像生成和理解的统一多模态AI模型

研究人员开发了改进统一多模态模型（UMMs）的新方法，UMMs结合了视觉理解和生成。一种方法是重建对齐（RECA），它使用自监督学习从图像自身的视觉嵌入中重建图像，以最小的计算成本提高生成和编辑的保真度。另一种方法是SPAR，它引入了一个新颖的框架，具有不对称双流标记器，以弥合语义感知和像素级重建之间的差距，并采用自适应路由来实现灵活的多模态交互。这两种技术都旨在提高UMMs的质量和能力，而无需依赖外部数据或教师。

RESEARCH · CL_104705 · Jun 21 · 10:57

新的基准测试和调优方法推动统一多模态AI模型发展

研究人员正在开发新的方法和基准测试来改进统一多模态模型（UMMs），旨在整合视觉理解和生成能力。一种名为语义生成调优（SGT）的方法，使用图像分割作为生成代理来对齐这些能力，在理解和生成方面均表现出性能提升。同时，正在引入MMGist和Unison等新基准测试，以解决现有评估中存在的问题，例如视觉依赖性不足和性能饱和。这些基准测试旨在为UMMs提供更准确、更具区分度的评估，并突出视觉逻辑等方面的持续薄弱环节。

TOOL · CL_96271 · Jun 17 · 04:00

新的Pareto LoRA方法平衡了多模态模型中的文本和图像梯度

研究人员推出了一种名为Pareto LoRA的新方法，用于解决参数高效微调过程中统一多模态模型（UMMs）中的模态不平衡问题。这种不平衡在基于LoRA的微调中尤为普遍，会导致语言梯度压倒图像生成，从而降低视觉质量。Pareto LoRA将多模态指令微调重构为双目标优化问题，使用帕累托最优策略集成文本和图像梯度，以平衡它们的方向和强度。在Emu2的CoMM基准测试上的实验表明，Pareto LoRA显著改善了多模态生成平衡，感知图像质量…

TOOL · CL_93978 · Jun 16 · 04:00

新框架Uni-Plan使用多模态模型增强AI决策能力

研究人员推出了一种新颖的规划框架Uni-Plan，该框架利用统一多模态模型（UMMs）来增强决策能力。与以往仅依赖基于语言的推理的方法不同，Uni-Plan利用UMMs处理多模态输入和输出，通过生成的视觉内容进行推理。该框架将策略、动态模型和价值函数整合到一个模型中，并采用自判别过滤技术来防止动态预测中的幻觉。实验表明，与基于视觉语言模型（VLMs）的方法相比，Uni-Plan在具身决策任务中的成功率显著提高，展示了强大的数据可扩展性…

FRONTIER RELEASE · CL_79704 · Jun 8 · 08:08

Google DeepMind 发布适用于笔记本电脑的 Gemma 4 12B 多模态模型

Google DeepMind 发布了 Gemma 4 12B，这是一款专为在具有 16GB VRAM 的笔记本电脑上本地运行而设计的新型多模态模型。该模型采用新颖的统一架构，将音频和视觉输入直接集成到 LLM 主干中，无需单独的编码器，从而降低了延迟和内存使用量。Gemma 4 12B 旨在将先进的代理多模态能力带到日常硬件上，其性能接近其较大的 26B MoE 版本，并通过开放许可和与流行工具的集成获得广泛的开发者支持。

RESEARCH · CL_65796 · May 30 · 00:00

多模态AI在推理和知识编辑方面存在困难

新研究表明，与纯文本模型相比，当前的文本到图像模型在推理能力方面存在显著差距。虽然文本到图像系统可以生成清晰的视觉文本，但它们在复杂的推理任务中常常无法保持逻辑一致性和事实准确性。此外，在统一的多模态模型中编辑知识的尝试表明，文本编辑不能可靠地转移到图像生成，这突显了需要新的编辑方法的模态差距。

SIGNIFICANT · CL_62171 · May 29 · 00:00

Google发布Gemma 4 12B多模态模型以供本地使用

Google发布了Gemma 4 12B，这是一款专为在消费级笔记本电脑上本地部署设计的新型多模态模型。该模型采用统一架构，将视觉和音频输入直接集成到LLM主干中，无需单独的编码器即可减少延迟。虽然其性能接近大型模型，但比较表明，在某些受限本地推理的基准测试中，Qwen 2.5 9B可能仍然更胜一筹。

TOOL · CL_51611 · May 26 · 04:00

DIVA框架通过解决表示冲突来增强多模态模型

研究人员推出了一种新颖的训练后框架DIVA，旨在增强统一多模态模型（UMMs）。DIVA解决了UMMs中优化目标冲突的挑战，其中生成任务需要高保真表示，而理解任务需要判别性嵌入。通过分析内部表示的分歧，DIVA将视觉表示分解为共享和独有组件，促进两个分支之间的协同作用。这种方法带来了显著的改进，生成任务提高了8.46%，视觉理解提高了7.82%。

RESEARCH · CL_51185 · May 26 · 04:00

研究发现DPO难以统一多模态模型的理解与生成

一项关于统一多模态模型的最新研究发现，直接偏好优化（DPO）在同时提升图像理解和生成能力方面存在困难。研究表明，生成质量难以通过DPO进行对齐，其中一个模型表现出生成性能下降，而另一个模型则在理解和生成任务之间表现出近乎正交的梯度。这种干扰归因于token幅度存在显著不平衡，表明离散的VQ分词可能是统一模型的潜在瓶颈。

TOOL · CL_42526 · May 20 · 17:59

Uni-Edit 通过统一的编辑任务推进多模态模型调优

研究人员推出 Uni-Edit，一种新颖的统一多模态模型 (UMMs) 调优方法，可同时增强图像理解、生成和编辑能力。与使用复杂多任务训练的传统方法不同，Uni-Edit 采用单一编辑任务、单一训练阶段和单一数据集。这是通过开发一个自动化的数据合成管道实现的，该管道将视觉问答数据转化为复杂的编辑指令，从而创建了 Uni-Edit-148k 数据集。实验表明，仅在 Uni-Edit 上进行调优即可在所有三种能力上实现全面改进，而无需额外的操作。

RESEARCH · CL_36070 · May 15 · 09:48

新研究探索多模态模型中视觉理解与生成之间的协同作用

研究人员正在探索新的方法，通过增强视觉理解与生成之间的协同作用来改进统一的多模态模型（UMMs）。一种方法是语义生成调优（SGT），它使用图像分割作为生成代理来对齐这些能力，在理解和生成任务上表现出改进的性能。另一个模型Lance利用具有双流架构的协同多任务训练来实现类似目标，在图像和视频生成方面优于现有的开源模型。第三篇论文介绍了生成到理解（G2U）协同作用，其中像细节增强这样的生成行为被用作中间推理步骤，在不重新训练的情况下完善感…

TOOL · CL_29245 · May 12 · 17:59

AlphaGRPO框架通过自反思提升多模态AI生成能力

研究人员推出AlphaGRPO，一个旨在改进统一多模态模型（UMMs）中多模态生成的新框架。该方法使用组相对策略优化（GRPO）使模型能够执行高级推理任务，例如推断文本到图像生成的用户意图并自我纠正输出。为了提供更好的监督，AlphaGRPO引入了一个分解可验证奖励（DVReward）系统，该系统将用户请求分解为由通用多模态大语言模型（MLLM）评估的可验证问题。实验表明，AlphaGRPO在各种多模态生成和编辑基准测试中显著提高了性能。

RESEARCH · CL_08190 · Apr 28 · 13:36

新的通过再生进行精炼（RvR）方法增强了图像生成模型

研究人员推出了一种名为“通过再生进行精炼”（Refinement via Regeneration, RvR）的新框架，用于改进文本到图像生成模型。与依赖编辑指令的先前方法不同，RvR将精炼视为一个再生过程。这种方法通过根据目标提示和初始图像的语义令牌再生图像，从而允许更大的修改空间，实现更完整的语义对齐。