Lens model trains efficiently, RankE framework improves discrete T2I generation

By PulseAugur Editorial · [12 sources] · 2026-05-20 00:00

Researchers have introduced Lens, a 3.8B-parameter text-to-image model that achieves competitive performance with significantly less training compute than larger models, using dense caption datasets and efficient architecture. It generates high-resolution images quickly and supports multilingual prompts. Separately, a new framework called RankE has been developed for discrete text-to-image models, which jointly optimizes the generator and decoder to improve both alignment and image fidelity, addressing issues of latent covariate shift. AI

IMPACT Lens demonstrates a path to more efficient training of large text-to-image models, while RankE offers a novel approach to improving the quality of discrete generation models.

RANK_REASON The cluster contains two research papers detailing new models and frameworks for text-to-image generation.

Read on Hugging Face Daily Papers →

AI-generated summary · Google Gemini · from 12 sources. How we write summaries →

COVERAGE [12]

arXiv cs.LG TIER_1 English(EN) · Zahraa Al Sahili, Maimuna Nowaz, Maryam Fetanat, Ioannis Patras, Matthew Purver · 2026-05-26 04:00

FairJudge: Abstention-Aware Multimodal Judges for Fairness and Alignment Evaluation in Text-to-Image Models

arXiv:2510.22827v3 Announce Type: replace-cross Abstract: Evaluating text-to-image (T2I) systems requires judging not only whether an image matches a prompt, but also whether socially salient attributes are represented faithfully and without unsupported inference. Existing automa…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-25 14:04

DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation

With the continued advancement of text-to-image (T2I) generation, producing high-quality images is becoming increasingly attainable; consequently, user demands are shifting toward images that better satisfy their specific requirements. As reward models play an increasingly import…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-20 00:00

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

Lens is a compact 3.8B-parameter text-to-image model achieving superior performance with reduced training compute through dense caption datasets, multi-resolution batching, efficient architecture, and optimization techniques.
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-20 00:00

RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

Discrete autoregressive text-to-image models suffer from latent covariate shift during policy optimization, which RankE addresses through end-to-end co-evolution of policy and decoder components.
arXiv cs.CV TIER_1 English(EN) · Shizhan Liu, Hao Zheng, Hang Yu, Jianguo Li · 2026-05-26 04:00

ACCORD: Alleviating Concept Coupling through Dependence Regularization for Text-to-Image Diffusion Personalization

arXiv:2503.01122v2 Announce Type: replace Abstract: Image personalization has garnered attention for its ability to customize Text-to-Image generation using only a few reference images. However, a key challenge in image personalization is the issue of conceptual coupling, where t…
arXiv cs.CV TIER_1 English(EN) · Shipeng Cao, Biao Qian, Haipeng Liu, Yang Wang, Meng Wang · 2026-05-26 04:00

AI-T2I: Aggregating-and-Isolating Cross-Attention to Diffusion Models for Text-to-Image Synthesis

arXiv:2605.25763v1 Announce Type: new Abstract: Text-to-image synthesis has made significant progress, benefiting from the strong generative capabilities of diffusion models. However, these models struggle to achieve precise text-to-image alignment within cross-attention maps dur…
arXiv cs.CV TIER_1 English(EN) · Jiaying Qian, Ziheng Jia, Qian Zhang, Zicheng Zhang, Jiayi Guo, Junqi Zhang, Guangtao Zhai, Xiongkuo Min · 2026-05-26 04:00

DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation

arXiv:2605.25876v1 Announce Type: new Abstract: With the continued advancement of text-to-image (T2I) generation, producing high-quality images is becoming increasingly attainable; consequently, user demands are shifting toward images that better satisfy their specific requiremen…
arXiv cs.CV TIER_1 English(EN) · Xiongkuo Min · 2026-05-25 14:04

DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation

With the continued advancement of text-to-image (T2I) generation, producing high-quality images is becoming increasingly attainable; consequently, user demands are shifting toward images that better satisfy their specific requirements. As reward models play an increasingly import…
arXiv cs.CV TIER_1 English(EN) · Meng Wang · 2026-05-25 12:17

AI-T2I: Aggregating-and-Isolating Cross-Attention to Diffusion Models for Text-to-Image Synthesis

Text-to-image synthesis has made significant progress, benefiting from the strong generative capabilities of diffusion models. However, these models struggle to achieve precise text-to-image alignment within cross-attention maps during the denoising process. Existing works primar…
arXiv cs.CV TIER_1 English(EN) · Yanjie Pan, Qingdong He, Zhengkai Jiang, Pengcheng Xu, Chaoyi Wang, Jinlong Peng, Haoxuan Wang, Yun Cao, Zhenye Gan, Mingmin Chi, Bo Peng, Yabiao Wang · 2026-05-25 04:00

PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation

arXiv:2503.06684v3 Announce Type: replace Abstract: Recent advances in diffusion-based text-to-image generation have demonstrated promising results through visual condition control. However, existing ControlNet-like methods struggle with compositional visual conditioning - simult…
arXiv cs.CV TIER_1 English(EN) · Dong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen · 2026-05-22 04:00

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

arXiv:2605.21573v1 Announce Type: new Abstract: We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly…
arXiv cs.CV TIER_1 English(EN) · Huan Wang · 2026-05-20 13:56

RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

Discrete autoregressive (AR) text-to-image (T2I) models pair a VQ tokenizer with an AR policy, and current post-training pipelines optimize only the policy while keeping the VQ decoder frozen. Recent diffusion T2I work, exemplified by REPA-E, has shown that the VAE itself constit…

COVERAGE [12]

RELATED ENTITIES

RELATED TOPICS