Topic

#Génération d'images

La génération d'images désigne la capacité d'un modèle d'IA à créer des visuels à partir d'une description textuelle. Stable Diffusion, par exemple, produit des images réalistes ou artistiques en quelques secondes à partir d'un simple prompt.

40Articles
8Sources
66Signal moyen
Reddit r/LocalLLaMA·

1-bit Bonsai Image 4B and Ternary Bonsai Image 4B Image Generation for Local Devices with just 0.93 GB and 1.21 GB respectively of Diffusion Transformer Footprint. So tiny!

Bonsai Image 4B propose des modèles de génération d'images quantifiés (1-bit et ternaire) pesant respectivement 0,93 GB et 1,21 GB. Ces versions compressées de Diffusion Transformer s'exécutent sur appareils locaux avec empreinte mémoire minimale.

Génération d'imagesOpen sourceOutils
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Comfy-Org /</span> ComfyUI

ComfyUI est une interface graphique modulaire pour les modèles de diffusion, offrant une API et un backend basés sur un système de nœuds et graphes pour la génération d'images.

Génération d'imagesOpen sourceOutils
SIG
75
HYP
00
Reddit r/MachineLearning·

A new dataset with more that 100M hi-quality, curated images, with captions and meta data! [P]

MONET, un dataset Apache 2.0 de 104,9 millions d'images haute qualité avec captions et métadonnées, publié sur Hugging Face. Construit à partir de 2,9 milliards d'images et raffiné. Accompagné d'un paper, d'outils de visualisation UMAP, d'un moteur de recherche texte/image et d'une codebase pour entraîner des modèles T2I.

Génération d'imagesEmbeddingsOpen source
SIG
75
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> yossTheDev /</span> removerized

Removerized est un toolkit IA pour le traitement d'images fonctionnant entièrement dans le navigateur. Gratuit, privé et hors ligne, il ne nécessite aucun serveur.

Génération d'imagesOpen sourceOutils
SIG
45
HYP
00
Reddit r/LocalLLaMA·

Does Engram Do Memory Retrieval in Autoregressive Image Generation?

Un module Engram (mémoire associative O(1) par hash) injecté dans des Transformers pour la génération d'images autorégressives sur ImageNet 256×256 n'améliore pas la qualité (FID) malgré des gains FLOP. Les expériences (gate-clamp, donor-probe, table gelée) révèlent que le module fonctionne comme un chemin résiduel architectural gated, non comme un mécanisme de récupération adressée par contenu.

PapersGénération d'imagesBenchmarks
SIG
72
HYP
00
Reddit r/LocalLLaMA·

Small comparison on full compute performance (Anima) of 5090 (600,475 and 400W) vs 6000 PRO MaxQ (325W), and 6000 PRO WS/SE (600W).

Benchmark de performance en compute (diffusion texte-image) comparant RTX 5090 (400-600W) vs RTX 6000 PRO MaxQ (325W) et 6000 PRO WS (600W). Tests sur Forge Neo avec SageAttention 2.1, résolution 896x1088, batch size 4. 5090 undervolté/overclocké (2930MHz, +4400MHz VRAM), 6000 PRO MaxQ modifié (+550MHz core).

Génération d'imagesBenchmarksInfrastructure
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVlabs /</span> Sana

NVIDIA Labs publie Sana, un modèle de diffusion transformer linéaire pour la synthèse d'images haute résolution. Architecture efficace réduisant la complexité computationnelle tout en maintenant la qualité visuelle.

Génération d'imagesOpen sourcePapers
SIG
75
HYP
00
arXiv cs.AI·

Perception-based Image Denoising via Generative Compression

Article proposant un cadre de compression générative pour le débruitage d'images basé sur la perception. Deux approches : un débruiteur WGAN conditionnel contrôlant le compromis rate-distortion-perception, et une stratégie de reconstruction par diffusion itérative guidée par des latents compressés. Garanties théoriques et améliorations perceptuelles validées sur benchmarks.

Génération d'imagesPapersBenchmarks
SIG
72
HYP
00
arXiv cs.AI·

Whispers in the Noise: Surrogate-Guided Concept Awakening via a Multi-Agent Framework

ConceptAgent, un framework multi-agent sans entraînement, contourne l'effacement de concepts dans les modèles de diffusion en exploitant la dynamique du débruitage. L'approche black-box réveille des concepts supprimés en initialisant la trajectoire de débruitage via des états bruyants guidés par substitut, sans accès aux paramètres du modèle.

Multi-agentsSécurité IAGénération d'images
SIG
72
HYP
00
arXiv cs.LG·

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Optimisation systématique de modèles de diffusion en temps réel sur Apple M3 Ultra (GPU 60-cœurs, 512 GB mémoire unifiée). Combinaison de CoreML, quantization, Token Merging, distillation (SDXS-512) et pipeline caméra 3-threads atteint 22.7 FPS à 512×512. Révèle que les optimisations CUDA ne s'appliquent pas à l'architecture mémoire unifiée d'Apple Silicon.

Génération d'imagesBenchmarksInfrastructure
SIG
78
HYP
00
arXiv cs.AI·

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation

CGPO (Curriculum Group Policy Optimization) améliore l'entraînement des modèles texte-vers-image en utilisant un curriculum adaptatif basé sur la variance des récompenses. La méthode priorise les prompts partiellement maîtrisés (variance élevée) et équilibre les catégories via optimisation de fairness proportionnelle. Gains validés sur GenEval, T2I-CompBench++, DPG Bench.

Génération d'imagesReinforcement learningBenchmarks
SIG
72
HYP
00
arXiv cs.AI·

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

SIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.

Génération d'imagesGénération de vidéosReinforcement learning
SIG
72
HYP
00
arXiv cs.AI·

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Lance est un modèle multimodal unifié léger supportant compréhension, génération et édition d'images et vidéos. Basé sur une architecture dual-stream mixture-of-experts avec encodage positionnel rotatif modulé par modalité, il combine apprentissage multi-tâche collaboratif et planification adaptative des données pour surpasser les modèles open-source existants en génération visuelle.

VisionGénération de vidéosGénération d'images
SIG
72
HYP
00
arXiv cs.AI·

Geometry-Aware Attention Guidance for Diffusion Models via Modern Hopfield Dynamics

GAG (Geometry-Aware Attention Guidance) améliore les modèles de diffusion sans entraînement supplémentaire en guidant l'attention via la dynamique de Hopfield moderne. Analyse théorique prouve que la discordance sparse-dense agit comme signal d'accélération directionnel. Méthode universelle testée sur FLUX.1, FLUX.2, Qwen-Image avec gains de qualité et surcoût minimal.

Génération d'imagesPapersRaisonnement
SIG
72
HYP
00
arXiv cs.AI·

Content-Style Identification via Differential Independence

Nouvel article arXiv proposant CSDI (content-style differential independence) pour identifier les facteurs de contenu et style dans les modèles génératifs multi-domaines. Relaxe les conditions d'indépendance statistique antérieures via une contrainte d'orthogonalité sur les sous-espaces jacobiens. Démontre l'identifiabilité même avec contenu/style dépendants et jacobien dense.

PapersGénération d'imagesRaisonnement
SIG
72
HYP
00
arXiv cs.AI·

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting

StyleText est un dataset de 28,518 triplets image-masque-prompt pour l'inpainting de texte en scène avec préservation de style. Pipeline automatisé combinant LLM, Flux avec injection KV-cache, OCR, extraction de masques polygonaux et augmentation FluxFill. Baseline FluxFill+LoRA améliore significativement la précision OCR tout en maintenant la cohérence stylistique.

BenchmarksGénération d'imagesVision
SIG
75
HYP
00
arXiv cs.AI·

SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

SENSE est un framework génératif basé sur diffusion qui synthétise conjointement des images satellite urbaines réalistes et des cartes d'énergie/hauteur de bâtiments alignées. Testé sur NYC, Boston, Lyon et Busan, il génère des données annotées avec <20% de données étiquetées, améliorant la performance de prédiction de 10% IoU et réduisant l'erreur de 3-11% NMBE.

Génération d'imagesGénération de codeBenchmarks
SIG
72
HYP
00
arXiv cs.AI·

Latent Action Control for Reasoning-Guided Unified Image Generation

LAC (Latent Action Control) rend le raisonnement actionnable dans les modèles génératifs unifiés en représentant la planification et le diagnostic comme des actions latentes continues. Intégré à BAGEL-7B-MoT, LAC améliore la génération compositionnelle et fondée sur les connaissances via alignement variationnel et GRPO, avec gains majeurs sur les relations spatiales et les liaisons d'attributs.

Génération d'imagesRaisonnementGénération de code
SIG
72
HYP
00