LayoutEnc: Leveraging Enhanced Layout Representations for Transformer-based Complex Scene Synthesis (TOMM 2025)

Environment

Following Taming Transformers, you should create such environment named layoutenc

conda env create -f environment.yaml
conda activate layoutenc

Training

Download first-stage models COCO-8k-VQGAN. Change ckpt_path in configs/coco.yaml to point to the downloaded first-stage models. Download the full COCO datasets and adapt data_path in the same files, unless working with the 100 files provided for training and validation suits your needs already.

Code can be run with python main.py --base configs/coco.yaml -t True --gpus 0,

Refer to Taming Transformers for more operations.

Demo (Local)

You only need to run such script, have fun!

python launch_gradio_app.py

Acknowledgements

Our repo is built open Frido and Taming Transformers, thanks for your opensourcing!

Citation

@article{cui2025layoutenc,
  title={LayoutEnc: Leveraging Enhanced Layout Representations for Transformer-based Complex Scene Synthesis},
  author={Cui, Xiao and Sun, Qi and Wang, Min and Li, Li and Zhou, Wengang and Li, Houqiang},
  journal={ACM Transactions on Multimedia Computing, Communications and Applications},
  year={2025},
  publisher={ACM New York, NY}
}

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
assets		assets
configs		configs
data		data
layoutenc		layoutenc
README.md		README.md
environment.yaml		environment.yaml
get_gradio_demo.py		get_gradio_demo.py
launch_gradio_app.py		launch_gradio_app.py
main.py		main.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

LayoutEnc: Leveraging Enhanced Layout Representations for Transformer-based Complex Scene Synthesis (TOMM 2025)

Environment

Training

Demo (Local)

Acknowledgements

Citation

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

qiisun/LayoutEnc

Folders and files

Latest commit

History

Repository files navigation

LayoutEnc: Leveraging Enhanced Layout Representations for Transformer-based Complex Scene Synthesis (TOMM 2025)

Environment

Training

Demo (Local)

Acknowledgements

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages