TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis

Xie, Yu; Zhang, Jielei; Chen, Pengyu; Wang, Weihang; Gao, Longwen; Li, Peiyi; Qiao, Qian; Lian, Zhouhui

TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis

dc.contributor.author	Xie, Yu
dc.contributor.author	Zhang, Jielei
dc.contributor.author	Chen, Pengyu
dc.contributor.author	Wang, Weihang
dc.contributor.author	Gao, Longwen
dc.contributor.author	Li, Peiyi
dc.contributor.author	Qiao, Qian
dc.contributor.author	Lian, Zhouhui
dc.contributor.editor	Masia, Belen
dc.contributor.editor	Thies, Justus
dc.date.accessioned	2026-04-17T11:52:30Z
dc.date.available	2026-04-17T11:52:30Z
dc.date.issued	2026
dc.description.abstract	Diffusion-based scene text synthesis has progressed rapidly, yet existing methods commonly rely on additional visual conditioning modules and require large-scale annotated data to support multilingual generation. In this work, we revisit the necessity of complex auxiliary modules and further explore an approach that simultaneously ensures glyph accuracy and achieves high-fidelity scene integration, by leveraging diffusion models’ inherent capabilities for contextual reasoning. To this end, we introduce TextFlux, a DiT-based framework that enables multilingual scene text synthesis. The advantages of TextFlux can be summarized as follows: (1) OCR-free model architecture. TextFlux eliminates the need for OCR encoders that are specifically used to extract visual text-related features. (2) Strong multilingual scalability. TextFlux is effective in low-resource multilingual settings, and achieves strong performance in newly added languages with fewer than 1,000 samples. (3) Streamlined training setup. TextFlux is trained with only 1% of the training data required by competing methods. (4) Controllable multi-line text generation. TextFlux offers flexible multi-line synthesis with precise line-level control, outperforming methods restricted to single-line or rigid layouts. Extensive experiments and visualizations demonstrate that TextFlux outperforms previous methods in both qualitative and quantitative evaluations. Our code is available at https://github.com/yyyyyxie/textflux.
dc.description.number	2
dc.description.sectionheaders	Diffusion and Beyond: Controlled Image Generation and Stylization
dc.description.seriesinformation	Computer Graphics Forum
dc.description.volume	45
dc.identifier.doi	10.1111/cgf.70342
dc.identifier.issn	1467-8659
dc.identifier.pages	12 pages
dc.identifier.uri	https://diglib.eg.org/handle/10.1111/cgf70342
dc.identifier.uri	https://doi.org/10.1111/cgf.70342
dc.publisher	The Eurographics Association and John Wiley & Sons Ltd.
dc.rights	CC-BY-4.0
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Keywords: Scene Text Synthesis, Diffusion Models, OCR-free, Image Editing, Multilingual Generation
dc.subject	Scene Text Synthesis
dc.subject	Diffusion Models
dc.subject	OCR-free
dc.subject	Image Editing
dc.subject	Multilingual Generation
dc.title	TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis

Files

Original bundle

Now showing 1 - 2 of 2

Name:: cgf70342.pdf
Size:: 20.69 MB
Format:: Adobe Portable Document Format

Download

Name:: paper1161_mm1.zip
Size:: 20.96 MB
Format:: Zip file

Download

Collections

45-Issue 2
EG 2026 - Full Papers - CGF 45-Issue 2