新的视觉思维链框架增强了文本到图像的组合能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

研究人员推出了一种新颖的视觉思维链框架 Shape-of-Thought (SoT)，旨在提高文本到图像生成中的组合结构。该框架训练了一个多模态自回归模型，以生成交错的文本计划和中间视觉状态，从而在无需显式几何表示的情况下更好地处理属性绑定和部件级关系等挑战。为了支持 SoT，开发了一个名为 SoT-26K 的新数据集和一个名为 T2S-CompBench 的基准。与直接生成方法相比，使用 SoT-26K 进行微调在组件数量和结构拓扑方面显示出显著的改进。 AI

影响增强了文本到图像模型中的组合控制能力，有望产生更准确、更有结构的视觉输出。

排序理由这是一篇研究论文，详细介绍了一个用于改进文本到图像生成的新框架和数据集。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yu Huo, Siyu Zhang, Kun Zeng, Haoyue Liu, Owen Lee, Junlin Chen, Yuquan Lu, Yifu Guo, Yaodong Liang, Xiaoying Tang · 2026-06-19 04:00

Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

arXiv:2601.21081v2 Announce Type: replace Abstract: Multimodal models for text-to-image generation have achieved strong visual fidelity, yet they remain brittle under compositional structural constraints, notably generative numeracy, attribute binding, and part-level relations. T…

报道来源 [1]

Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

相关实体

相关话题