English(EN) Self-Prompting Diffusion Transformer for Open-Vocabulary Scene Text Editing via In-Context Learning

新方法实现具有风格一致性的开放词汇场景文本编辑

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员开发了一种新颖的自提示方法，用于编辑图像中的场景文本，解决了现有方法忽略目标区域的视觉细节并受限于预训练字形编码器的局限性。这项新技术直接从图像构建风格和字形提示，利用多模态扩散 Transformer (MM-DiT) 的上下文学习能力。该方法实现了开放词汇和风格一致的文本编辑，在各种语言上展示了最先进的性能。 AI

排序理由这是一篇详细介绍新图像编辑方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Hongxi Li, Tong Wang, Chengjing Wu, Tianbao Liu, Jiangtao Yao, Xiaochao Qu, Xinxiao Wu, Luoqi Liu, Ting Liu · 2026-05-28 04:00

Self-Prompting Diffusion Transformer for Open-Vocabulary Scene Text Editing via In-Context Learning

arXiv:2605.15523v2 Announce Type: replace Abstract: Scene text editing aims to modify text in a target region of an image while preserving surrounding background style and texture. Existing methods rely solely on image background information while neglecting the visual details of…

报道来源 [1]

Self-Prompting Diffusion Transformer for Open-Vocabulary Scene Text Editing via In-Context Learning

相关实体

相关话题