Unified Multimodal Models
PulseAugur coverage of Unified Multimodal Models — every cluster mentioning Unified Multimodal Models across labs, papers, and developer communities, ranked by signal.
3 天有情绪数据
-
Uni-Edit 通过统一的编辑任务推进多模态模型调优
研究人员推出 Uni-Edit,一种新颖的统一多模态模型 (UMMs) 调优方法,可同时增强图像理解、生成和编辑能力。与使用复杂多任务训练的传统方法不同,Uni-Edit 采用单一编辑任务、单一训练阶段和单一数据集。这是通过开发一个自动化的数据合成管道实现的,该管道将视觉问答数据转化为复杂的编辑指令,从而创建了 Uni-Edit-148k 数据集。实验表明,仅在 Uni-Edit 上进行调优即可在所有三种能力上实现全面改进,而无需额外的操作。
-
新研究探索多模态模型中视觉理解与生成之间的协同作用
研究人员正在探索新的方法,通过增强视觉理解与生成之间的协同作用来改进统一的多模态模型(UMMs)。一种方法是语义生成调优(SGT),它使用图像分割作为生成代理来对齐这些能力,在理解和生成任务上表现出改进的性能。另一个模型Lance利用具有双流架构的协同多任务训练来实现类似目标,在图像和视频生成方面优于现有的开源模型。第三篇论文介绍了生成到理解(G2U)协同作用,其中像细节增强这样的生成行为被用作中间推理步骤,在不重新训练的情况下完善感…
-
AlphaGRPO framework boosts multimodal AI generation with self-reflection
Researchers have introduced AlphaGRPO, a new framework designed to improve multimodal generation in Unified Multimodal Models (UMMs). This approach uses Group Relative Policy Optimization (GRPO) to enable models to perf…
-
新的通过再生进行精炼(RvR)方法增强了图像生成模型
研究人员推出了一种名为“通过再生进行精炼”(Refinement via Regeneration, RvR)的新框架,用于改进文本到图像生成模型。与依赖编辑指令的先前方法不同,RvR将精炼视为一个再生过程。这种方法通过根据目标提示和初始图像的语义令牌再生图像,从而允许更大的修改空间,实现更完整的语义对齐。