English(EN) Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

Lens模型训练高效，RankE框架改进离散文本到图像生成

作者 PulseAugur 编辑部 · [11 个来源] · 2026-05-20 00:00

研究人员推出了Lens，一个拥有38亿参数的文本到图像模型，它使用密集的字幕数据集和高效的架构，以显著减少的训练计算量实现了与更大模型相媲美的性能。它能快速生成高分辨率图像，并支持多语言提示。另外，一个名为RankE的新框架已被开发用于离散文本到图像模型，该框架联合优化生成器和解码器，以同时提高对齐度和图像保真度，解决了潜在协变量偏移的问题。 AI

影响 Lens展示了一条更高效地训练大型文本到图像模型的途径，而RankE为改进离散生成模型的质量提供了一种新颖的方法。

排序理由该集群包含两篇研究论文，详细介绍了用于文本到图像生成的新模型和框架。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 11 个来源。我们如何撰写摘要 →

报道来源 [11]

arXiv cs.LG TIER_1 English(EN) · Zahraa Al Sahili, Maimuna Nowaz, Maryam Fetanat, Ioannis Patras, Matthew Purver · 2026-05-26 04:00

FairJudge: Abstention-Aware Multimodal Judges for Fairness and Alignment Evaluation in Text-to-Image Models

arXiv:2510.22827v3 Announce Type: replace-cross Abstract: Evaluating text-to-image (T2I) systems requires judging not only whether an image matches a prompt, but also whether socially salient attributes are represented faithfully and without unsupported inference. Existing automa…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-20 00:00

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

Lens is a compact 3.8B-parameter text-to-image model achieving superior performance with reduced training compute through dense caption datasets, multi-resolution batching, efficient architecture, and optimization techniques.
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-20 00:00

RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

Discrete autoregressive text-to-image models suffer from latent covariate shift during policy optimization, which RankE addresses through end-to-end co-evolution of policy and decoder components.
arXiv cs.CV TIER_1 English(EN) · Shizhan Liu, Hao Zheng, Hang Yu, Jianguo Li · 2026-05-26 04:00

ACCORD: Alleviating Concept Coupling through Dependence Regularization for Text-to-Image Diffusion Personalization

arXiv:2503.01122v2 Announce Type: replace Abstract: Image personalization has garnered attention for its ability to customize Text-to-Image generation using only a few reference images. However, a key challenge in image personalization is the issue of conceptual coupling, where t…
arXiv cs.CV TIER_1 English(EN) · Jiaying Qian, Ziheng Jia, Qian Zhang, Zicheng Zhang, Jiayi Guo, Junqi Zhang, Guangtao Zhai, Xiongkuo Min · 2026-05-26 04:00

DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation

arXiv:2605.25876v1 Announce Type: new Abstract: With the continued advancement of text-to-image (T2I) generation, producing high-quality images is becoming increasingly attainable; consequently, user demands are shifting toward images that better satisfy their specific requiremen…
arXiv cs.CV TIER_1 English(EN) · Shipeng Cao, Biao Qian, Haipeng Liu, Yang Wang, Meng Wang · 2026-05-26 04:00

AI-T2I: Aggregating-and-Isolating Cross-Attention to Diffusion Models for Text-to-Image Synthesis

arXiv:2605.25763v1 Announce Type: new Abstract: Text-to-image synthesis has made significant progress, benefiting from the strong generative capabilities of diffusion models. However, these models struggle to achieve precise text-to-image alignment within cross-attention maps dur…
arXiv cs.CV TIER_1 English(EN) · Xiongkuo Min · 2026-05-25 14:04

DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation

With the continued advancement of text-to-image (T2I) generation, producing high-quality images is becoming increasingly attainable; consequently, user demands are shifting toward images that better satisfy their specific requirements. As reward models play an increasingly import…
arXiv cs.CV TIER_1 English(EN) · Meng Wang · 2026-05-25 12:17

AI-T2I: Aggregating-and-Isolating Cross-Attention to Diffusion Models for Text-to-Image Synthesis

Text-to-image synthesis has made significant progress, benefiting from the strong generative capabilities of diffusion models. However, these models struggle to achieve precise text-to-image alignment within cross-attention maps during the denoising process. Existing works primar…
arXiv cs.CV TIER_1 English(EN) · Yanjie Pan, Qingdong He, Zhengkai Jiang, Pengcheng Xu, Chaoyi Wang, Jinlong Peng, Haoxuan Wang, Yun Cao, Zhenye Gan, Mingmin Chi, Bo Peng, Yabiao Wang · 2026-05-25 04:00

PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation

arXiv:2503.06684v3 Announce Type: replace Abstract: Recent advances in diffusion-based text-to-image generation have demonstrated promising results through visual condition control. However, existing ControlNet-like methods struggle with compositional visual conditioning - simult…
arXiv cs.CV TIER_1 English(EN) · Dong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen · 2026-05-22 04:00

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

arXiv:2605.21573v1 Announce Type: new Abstract: We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly…
arXiv cs.CV TIER_1 English(EN) · Huan Wang · 2026-05-20 13:56

RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

Discrete autoregressive (AR) text-to-image (T2I) models pair a VQ tokenizer with an AR policy, and current post-training pipelines optimize only the policy while keeping the VQ decoder frozen. Recent diffusion T2I work, exemplified by REPA-E, has shown that the VAE itself constit…

报道来源 [11]

相关实体

相关话题