arXiv cs.AI·19 mai 2026

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting

Signal

Hype

En 3 lignesStyleText est un dataset de 28,518 triplets image-masque-prompt pour l'inpainting de texte en scène avec préservation de style. Pipeline automatisé combinant LLM, Flux avec injection KV-cache, OCR, extraction de masques polygonaux et augmentation FluxFill. Baseline FluxFill+LoRA améliore significativement la précision OCR tout en maintenant la cohérence stylistique.

Lire la source

Ton avis ?

Benchmarks Génération d'images Vision Papers

Résumé généré par Claude — vérifié par l'humain

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting

Autres angles sur ce sujet