Brief · PulseAugur

RESEARCH · Hugging Face Daily Papers English(EN) · 5d · [2 sources]

OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation

Researchers have developed OcclusionFormer, a new framework designed to improve layout-grounded image generation by explicitly handling inter-object occlusion. Existing models struggle when bounding boxes overlap, leading to ambiguous or inconsistent layering. OcclusionFormer addresses this by using a novel Diffusion Transformer that models Z-order priority and employs volume rendering for compositing. The approach is supported by a new dataset, SA-Z, which includes explicit occlusion ordering and pixel-level annotations, leading to enhanced semantic consistency and accuracy in generated images. AI

IMPACT Improves spatial controllability in image generation models by resolving complex occlusion relationships.

OcclusionFormer
Diffusion Transformer