New methods generate and edit 3D indoor scenes using multi-agent systems

By PulseAugur Editorial · [7 sources] · 2026-06-07 01:38

Researchers have developed new methods for generating and editing 3D indoor scenes. SceneConductor uses a multi-agent orchestration framework to decompose the process into initialization, environment construction, and refinement stages, improving geometric accuracy and realism. AccioScene employs graph diffusion and interaction-driven critics to create coherent 3D scenes from text prompts, focusing on functional plausibility and human interaction. HDSL introduces a hierarchical domain-specific language for structured scene representation, enabling LLM agents to generate and edit scenes more efficiently with localized revisions. AI

IMPACT These advancements in 3D scene generation and editing could accelerate the development of virtual environments for gaming, simulation, and architectural design.

RANK_REASON Multiple research papers introducing novel methods for 3D scene generation and editing.

Read on arXiv cs.MA (Multiagent) →

AI-generated summary · Google Gemini · from 7 sources. How we write summaries →

COVERAGE [7]

arXiv cs.LG TIER_1 English(EN) · Yao Wei, Matteo Toso, Pietro Morerio, Changjae Oh, Michael Ying Yang, Alessio Del Bue · 2026-06-09 04:00

AccioScene: Compositional 3D Scene Generation via Graph Diffusion and Interaction-driven Critics

arXiv:2502.06819v2 Announce Type: replace Abstract: This paper presents a framework for generating 3D indoor scenes from text prompts. Existing methods often formulate scene synthesis as an object layout prediction problem conditioned on a single input modality, such as a text de…
arXiv cs.AI TIER_1 English(EN) · Jeonghwan Kim, Yushi Lan, Yongwei Chen, Hieu Trung Nguyen, Chuanyu Pan, Xingang Pan · 2026-06-09 04:00

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

arXiv:2606.08402v1 Announce Type: cross Abstract: Generating complete 3D scenes from a single image requires inferring globally consistent geometry, object relationships, and environmental context from inherently ambiguous visual evidence. Despite recent progress in joint layout-…
arXiv cs.MA (Multiagent) TIER_1 English(EN) · Xingang Pan · 2026-06-07 01:38

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

Generating complete 3D scenes from a single image requires inferring globally consistent geometry, object relationships, and environmental context from inherently ambiguous visual evidence. Despite recent progress in joint layout-and-mesh generation, existing methods often rely o…
arXiv cs.CV TIER_1 English(EN) · Xinnan Zhu, Ruijie Xu, Jiayu Ying, Daoguo Dong, Jiachen Xu, Yuan Xie, Xin Tan · 2026-06-12 04:00

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

arXiv:2606.13345v1 Announce Type: new Abstract: Existing 3D scene editing methods typically rely on per-scene optimization over explicit 3D representations or cascaded edit-and-reconstruct pipelines, resulting in high test-time cost, limited 3D awareness, and structural inconsist…
arXiv cs.CV TIER_1 English(EN) · Xin Tan · 2026-06-11 13:35

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

Existing 3D scene editing methods typically rely on per-scene optimization over explicit 3D representations or cascaded edit-and-reconstruct pipelines, resulting in high test-time cost, limited 3D awareness, and structural inconsistencies. To couple appearance synthesis and geome…
arXiv cs.CV TIER_1 English(EN) · Letian Li, Chao Shen, Shuzhao Xie, Chenghao Gu, ZhengXiao He, Yu Meng, Xin Yang, Wenyuan Jiang, Zhi Wang · 2026-06-09 04:00

HDSL: A Hierarchical Domain-Specific Language for Structured 3D Indoor Scene Generation and Localized Editing with LLM Agents

arXiv:2606.09738v1 Announce Type: new Abstract: Text-driven indoor scene generation and editing require an intermediate representation that language models can both produce and revise. Existing LLM-based systems often rely on scene graphs or global constraint lists, which are com…
arXiv cs.CV TIER_1 English(EN) · Zhi Wang · 2026-06-08 17:02

HDSL: A Hierarchical Domain-Specific Language for Structured 3D Indoor Scene Generation and Localized Editing with LLM Agents

Text-driven indoor scene generation and editing require an intermediate representation that language models can both produce and revise. Existing LLM-based systems often rely on scene graphs or global constraint lists, which are compact but underspecify local geometry and make in…

COVERAGE [7]

AccioScene: Compositional 3D Scene Generation via Graph Diffusion and Interaction-driven Critics

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

HDSL: A Hierarchical Domain-Specific Language for Structured 3D Indoor Scene Generation and Localized Editing with LLM Agents

HDSL: A Hierarchical Domain-Specific Language for Structured 3D Indoor Scene Generation and Localized Editing with LLM Agents

RELATED ENTITIES

RELATED TOPICS