实体 MM-DiT

MM-DiT

PulseAugur coverage of MM-DiT — every cluster mentioning MM-DiT across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_111804 · Jun 26 · 04:00

新方法可在无需重新训练的情况下实现文本和图像到图像生成

研究人员开发了TF-TI2I，一种新颖的文本和图像到图像生成方法，可以在无需进一步训练的情况下适配现有的文本到图像模型。该方法利用MM-DiT架构，使文本标记能够从视觉标记中隐式学习视觉信息。关键技术包括用于选择性信息共享的参考上下文掩码（Reference Contextual Masking）和用于缓解分布偏移的赢者通吃模块（Winner-Takes-All module）。该团队还引入了FG-TI2I Bench，一个旨在评估文…
TOOL · CL_56563 · May 28 · 04:00

新方法实现具有风格一致性的开放词汇场景文本编辑

研究人员开发了一种新颖的自提示方法，用于编辑图像中的场景文本，解决了现有方法忽略目标区域的视觉细节并受限于预训练字形编码器的局限性。这项新技术直接从图像构建风格和字形提示，利用多模态扩散 Transformer (MM-DiT) 的上下文学习能力。该方法实现了开放词汇和风格一致的文本编辑，在各种语言上展示了最先进的性能。
RESEARCH · CL_41800 · May 20 · 02:55

新方法通过平衡对齐、真实感和美学来改进AI肖像生成

研究人员开发了一种新方法，用于改进文本到图像扩散模型中的人物肖像生成，解决了文本-图像对齐、真实感和美学之间的常见权衡问题。他们的方法采用了一种面向多模态扩散Transformer (MM-DiT) 的特征监督范式，该范式集成了来自SigLIP 2的视觉对齐文本引导，而不会影响模型的原始能力。该技术还利用了来自预训练视觉模型的审美信号来增强感知美感，从而在所有三个指标上都推动了改进结果的帕累托前沿。
RESEARCH · CL_08432 · Apr 29 · 02:23

Galaxy General LDA-1B模型统一多样化数据，迎来具身AI的GPT-2时刻

Galaxy General LDA 推出了 LDA-1B，一个拥有 16 亿参数的模型，旨在统一具身 AI 的多样化数据源利用。该模型采用了新颖的世界-动作融合方法，使其能够从广泛的数据中学习，包括虚拟模拟、真实世界镜头，甚至噪声或未标记的输入。通过打破数据孤岛，LDA-1B 旨在克服先前具身 AI 模型的局限性，并迎来可扩展、通用机器人智能的时代。
RESEARCH · CL_04991 · Apr 24 · 04:26

UniSonate模型统一了语音、音乐和音效的生成

研究人员开发了UniSonate，一个新颖的统一框架，用于通过自然语言指令生成语音、音乐和音效。该模型通过协调结构化语义表示与非结构化声学纹理，解决了生成式音频的碎片化问题。UniSonate采用动态令牌注入机制和多模态扩散Transformer (MM-DiT)，在文本到语音和文本到音乐任务中实现了精确的时长控制和最先进的结果，同时在文本到音频生成方面也表现出竞争力。