Retour au feed
arXiv cs.AI·

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting

Signal
75
Hype
25
En 3 lignesStyleText est un dataset de 28,518 triplets image-masque-prompt pour l'inpainting de texte en scène avec préservation de style. Pipeline automatisé combinant LLM, Flux avec injection KV-cache, OCR, extraction de masques polygonaux et augmentation FluxFill. Baseline FluxFill+LoRA améliore significativement la précision OCR tout en maintenant la cohérence stylistique.
Lire la source
Ton avis ?
BenchmarksGénération d'imagesVisionPapers

Résumé généré par Claude — vérifié par l'humain