Topic

#Génération d'images

La génération d'images désigne la capacité d'un modèle d'IA à créer des visuels à partir d'une description textuelle. Stable Diffusion, par exemple, produit des images réalistes ou artistiques en quelques secondes à partir d'un simple prompt.

40Articles

8Sources

56Signal moyen

Latent Space·18 juin

[AINews] Midjourney Medical: scan your organs like you step on a scale

Midjourney lance son deuxième produit : une application médicale permettant de scanner les organes via smartphone, sans nécessiter d'équipement médical spécialisé. Le modèle d'IA analyse les images capturées pour fournir des diagnostics préliminaires.

Génération d'images Vision Business

SIG

HYP

Reddit r/MachineLearning·17 juin

I deployed a GAN on a Raspberry Pi 4 and built a physical NFT minting device [P]

Déploiement d'un DCGAN 128×128 sur Raspberry Pi 4 connecté à un ESP32. Modèle entraîné 800 epochs sur M3 (4h), 2480 images, exporté en ONNX (53MB). Inférence 3s/image. Génère des visages hybrides avec titres aléatoires. Présenté comme installation artistique à NYC.

Génération d'images Open source Outils

SIG

HYP

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ParthJadhav /</span> app-store-screenshots

Outil open-source pour générer automatiquement des captures d'écran d'app store via IA. Automatise la création de visuels marketing pour applications mobiles.

Génération d'images Outils Open source

SIG

HYP

Le Big Data·15 juin

Ce fou furieux tente de recréer GTA 6 de A à Z… uniquement avec une IA

Un développeur tente de recréer GTA 6 entièrement avec l'IA, en parallèle de la sortie officielle prévue en novembre. Le projet utilise des modèles d'IA pour générer le code, les assets graphiques et le game design.

Génération de code Génération d'images Outils

SIG

HYP

GitHub Trending·14 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> AUTOMATIC1111 /</span> stable-diffusion-webui

AUTOMATIC1111/stable-diffusion-webui est un dépôt GitHub populaire fournissant une interface web pour Stable Diffusion. Outil open-source permettant la génération d'images via une UI accessible.

Génération d'images Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·12 juin

Open Dungeon: local roleplay with Gemma 4 QAT + inline Uncen-FLUX images, running at full 256K context under 8GB RAM (OS)

Open Dungeon est un jeu de rôle local utilisant Gemma 4 QAT (12B) via Ollama pour la narration et FLUX pour générer les images. Fonctionne en 7.7GB RAM avec contexte 256K complet, sans API ni cloud. Interface avec modes Do/Say/Story, édition de lignes, sélection de modèle. MIT, source disponible.

Gemini Open source Génération d'images

SIG

HYP

Reddit r/LocalLLaMA·10 juin

Lemonade v10.7 release and project organization update

Lemonade v10.7 introduit des modèles omni-modaux (image gen/editing), un outil de benchmarking (lemonade bench) comparant llama.cpp, FastFlowLM et vLLM, et étend le support multi-vendor (CUDA, Vulkan). 19 contributeurs, 6 groupes de travail dont 4 dirigés par non-AMDers. GPU accélération sur AMD, Apple Silicon, Nvidia, Intel.

Open source Benchmarks Génération d'images

SIG

HYP

Reddit r/LocalLLaMA·10 juin

DiffusionGemma: The Developer Guide- Google Developers Blog

Google publie un guide développeur pour DiffusionGemma, son modèle de génération d'images basé sur la diffusion. Le guide couvre l'intégration, l'optimisation et les cas d'usage pratiques pour les développeurs.

Gemini Génération d'images Outils

SIG

HYP

The Decoder·8 juin

Microsoft Research's Lens proves detailed captions matter more than raw scale for training efficient image generators

Microsoft Research présente Lens, un modèle texte-vers-image de 3,8 milliards de paramètres qui égale des rivaux bien plus grands sur les benchmarks, avec un coût d'entraînement réduit. La clé : 800 millions de captions détaillées générées par GPT-4.1 au lieu de textes alt vagues. Code et poids disponibles en open-source.

Génération d'images Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·8 juin

Open image generation models are closer to closed-source quality than this sub thinks [D]

Un chercheur évalue les modèles open-source de génération d'images et constate que l'écart avec les APIs fermées est bien plus petit que supposé. Les derniers checkpoints gèrent les scènes multi-objets et le rendu de texte (70-80% de succès) de manière comparable aux endpoints payants, avec des temps d'inférence de 2 minutes pour 2MP sur GPU grand public.

Génération d'images Benchmarks Open source

SIG

HYP

Hacker News (AI)·7 juin

Efficient and Training-Free Single-Image Diffusion Models

Nouvelle approche de modèles de diffusion pour générer des images à partir d'une seule image source, sans entraînement supplémentaire. La méthode est efficace en termes de calcul et de mémoire.

Génération d'images Papers

SIG

HYP

Reddit r/LocalLLaMA·5 juin

Horus Image Generation is here! 🤩📷

TokenAI annonce Horus Lens 1.0, premier modèle open-source de génération d'images développé entièrement en Égypte. Famille de modèles spécialisés en text-to-image, marquant une étape majeure pour l'écosystème IA égyptien et arabe.

Génération d'images Open source

SIG

HYP

Le Big Data·4 juin

Vous ne savez pas quoi acheter ? L’IA d’Amazon s’en charge

Amazon déploie une fonction IA générative d'images pour faciliter les achats. La capacité permet aux utilisateurs de générer visuellement des produits à partir de descriptions textuelles, intégrant la génération d'images directement dans le parcours d'achat.

Génération d'images Business

SIG

HYP

The Decoder·4 juin

xAI updates Grok Imagine to 1.5 with image-to-video generation at 720p resolution

xAI lance grok-imagine-video-1.5-preview, un modèle image-vers-vidéo générant des vidéos cinématiques jusqu'à 720p à partir d'images fixes et de prompts texte. Plusieurs clips peuvent être assemblés en scènes plus longues.

Génération de vidéos Génération d'images

SIG

HYP

Le Big Data·4 juin

Google lance Dreambeans, cette appli IA crée des petites histoires basées sur votre vie

Google lance Dreambeans, une application IA générant des micro-histoires personnalisées basées sur les données utilisateur. L'app propose une alternative au scroll infini des réseaux sociaux traditionnels.

DeepMind Génération d'images

SIG

HYP

Le Big Data·4 juin

Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?

Ideogram lance Ideogram 4.0, un modèle de génération d'images IA affichant des performances record. Le modèle est présenté comme potentiel leader des solutions open source de génération d'images.

Génération d'images Open source

SIG

HYP

Latent Space·4 juin

[AINews] Reve 2 and Ideogram 4: Layouts in Imagegen

Reve 2 et Ideogram 4 introduisent des capacités de layout dans la génération d'images. Deux mises à jour majeures pour le contrôle spatial et la composition dans les outils de création visuelle.

Génération d'images

SIG

HYP

The Decoder·3 juin

Ideogram 4.0 drops as an open-weight model with native 2K resolution and improved text rendering

Ideogram 4.0 sort en modèle open-weight avec résolution native 2K, contrôle de bounding box et rendu de texte amélioré. Sur DesignArena, il classe premier parmi les modèles ouverts, derrière seulement OpenAI et Google. Utilisation commerciale sous licence payante.

Génération d'images Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·3 juin

Ideogram 4 is open source! (top ranked on DesignArena)

Ideogram 4, un modèle de génération d'images, est devenu open source. Il se classe en tête du benchmark DesignArena pour la qualité visuelle et la conformité aux prompts.

Génération d'images Open source Benchmarks

SIG

HYP

The Decoder·3 juin

Build 2026: Microsoft tops Google in image generation while playing catch-up on reasoning

Microsoft annonce sept nouveaux modèles IA maison à Build 2026, dont son premier modèle de reasoning. L'entreprise introduit aussi une nouvelle méthode de tuning et un agent autonome de fond.

Raisonnement Génération d'images Agents IA

SIG

HYP

Reddit r/LocalLLaMA·2 juin

1-bit Bonsai Image 4B and Ternary Bonsai Image 4B Image Generation for Local Devices with just 0.93 GB and 1.21 GB respectively of Diffusion Transformer Footprint. So tiny!

Bonsai Image 4B propose des modèles de génération d'images quantifiés (1-bit et ternaire) pesant respectivement 0,93 GB et 1,21 GB. Ces versions compressées de Diffusion Transformer s'exécutent sur appareils locaux avec empreinte mémoire minimale.

Génération d'images Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·2 juin

NVIDIA releases Cosmos 3 Omnimodal world modelson HF

NVIDIA publie Cosmos 3, une collection de modèles omnimodaux (Nano 16B, Super 64B) capables de générer vidéo, image, audio et commandes d'action à partir de texte, image, vidéo et trajectoires. Disponible sur Hugging Face pour applications Physical AI.

Génération de vidéos Génération d'images Open source

SIG

HYP

arXiv cs.LG·2 juin

Geometric Erasure by Contrastive Velocity Matching in Rectified Flows

GEM est une méthode d'effacement de concepts pour les modèles Rectified Flow Transformers. Elle combine des signaux de trajectoire (Generative Flow Networks) et un guidage par enseignant pour supprimer sélectivement les contenus nuisibles (deepfakes, violations de copyright) tout en préservant la génération bénigne.

Sécurité IA Alignement Papers

SIG

HYP

Hacker News (AI)·31 mai

1-Bit Bonsai Image 4B Image Generation for Local Devices

Bonsai Image 4B est un modèle de génération d'images quantifié en 1-bit, conçu pour fonctionner sur appareils locaux. Le modèle compresse les poids à 1 bit pour réduire drastiquement la taille et les besoins en calcul, permettant l'inférence sur hardware limité.

Génération d'images Open source Infrastructure

SIG

HYP

GitHub Trending·31 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Comfy-Org /</span> ComfyUI

ComfyUI est une interface graphique modulaire pour les modèles de diffusion, offrant une API et un backend basés sur un système de nœuds et graphes pour la génération d'images.

Génération d'images Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·31 mai

Diffusion in prod: how are you handling spiky GPU load and cold starts?

Discussion sur les défis de production des modèles de diffusion : gestion des pics de charge GPU, démarrages à froid et coûts d'inférence. Passage de 100 à 10k requêtes révèle des problèmes d'architecture et de multi-tenancy.

Génération d'images Infrastructure Outils

SIG

HYP

Hacker News (AI)·31 mai

AI grifters are creating fake Black people to sell Shein junk

Des arnaqueurs utilisent des images générées par IA de personnes noires fictives pour promouvoir des produits Shein sur les réseaux sociaux. Pratique de marketing frauduleux exploitant la génération d'images et les biais raciaux.

Génération d'images Sécurité IA Business

SIG

HYP

Reddit r/MachineLearning·28 mai

A new dataset with more that 100M hi-quality, curated images, with captions and meta data! [P]

MONET, un dataset Apache 2.0 de 104,9 millions d'images haute qualité avec captions et métadonnées, publié sur Hugging Face. Construit à partir de 2,9 milliards d'images et raffiné. Accompagné d'un paper, d'outils de visualisation UMAP, d'un moteur de recherche texte/image et d'une codebase pour entraîner des modèles T2I.

Génération d'images Embeddings Open source

SIG

HYP

GitHub Trending·28 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> yossTheDev /</span> removerized

Removerized est un toolkit IA pour le traitement d'images fonctionnant entièrement dans le navigateur. Gratuit, privé et hors ligne, il ne nécessite aucun serveur.

Génération d'images Open source Outils

SIG

HYP

The Decoder·28 mai

Amazon builds its own AI production platform and greenlights three AI animated series for Prime Video

Amazon MGM Studios et AWS lancent un fonds pour créateurs IA et une plateforme interne « Project Nara ». Trois séries animées sont en production avec des délais de cinq semaines pour les pilotes. Amazon revendique le seul écosystème de contenu IA end-to-end du secteur.

Génération d'images Génération de vidéos Business

SIG

HYP

Le Big Data·28 mai

Fini les templates ? CapCut lance Design Studio 2.0, l’IA qui joue les directrices artistiques

CapCut lance Design Studio 2.0, une plateforme d'IA pour la création graphique qui remplace les templates traditionnels. L'outil propose une direction artistique automatisée pour la conception visuelle.

Génération d'images Outils Business

SIG

HYP

The Decoder·27 mai

Microsoft's MAI-Image-2.5 pulls even with Google's Nano Banana 2 on benchmarks

Microsoft MAI-Image-2.5 atteint la 3e place du classement Arena text-to-image, au même niveau que Google Nano Banana 2, mais derrière OpenAI Image-2. Le modèle progresse nettement sur le rendu de texte dans les images et les visuels commerciaux.

Génération d'images Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·27 mai

Does Engram Do Memory Retrieval in Autoregressive Image Generation?

Un module Engram (mémoire associative O(1) par hash) injecté dans des Transformers pour la génération d'images autorégressives sur ImageNet 256×256 n'améliore pas la qualité (FID) malgré des gains FLOP. Les expériences (gate-clamp, donor-probe, table gelée) révèlent que le module fonctionne comme un chemin résiduel architectural gated, non comme un mécanisme de récupération adressée par contenu.

Papers Génération d'images Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·26 mai

Small comparison on full compute performance (Anima) of 5090 (600,475 and 400W) vs 6000 PRO MaxQ (325W), and 6000 PRO WS/SE (600W).

Benchmark de performance en compute (diffusion texte-image) comparant RTX 5090 (400-600W) vs RTX 6000 PRO MaxQ (325W) et 6000 PRO WS (600W). Tests sur Forge Neo avec SageAttention 2.1, résolution 896x1088, batch size 4. 5090 undervolté/overclocké (2930MHz, +4400MHz VRAM), 6000 PRO MaxQ modifié (+550MHz core).

Génération d'images Benchmarks Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·26 mai

PrismML just released Binary and Ternary Bonsai Image 4B: 1-bit/ternary text-to-image diffusion transformers that can even run 100% locally in your browser on WebGPU.

PrismML publie Bonsai Image 4B, des modèles de diffusion texte-vers-image quantifiés en 1-bit/ternaire. Taille ~3GB (vs 16GB pour FLUX.2 Klein), exécutables 100% localement en WebGPU. Licence Apache-2.0.

Génération d'images Open source Outils

SIG

HYP

arXiv cs.LG·26 mai

Filtered Posterior Mean Collections: A Unified Framework for Analytical Models of Diffusion Generalization

Cadre unifié (FPMC) modélisant les fonctions de débruitage des diffusion models. Consolide approches existantes via vecteurs de précision, poids de réponse et distributions sources. Améliore performance par relaxations souples et augmentations de distributions.

Génération d'images Papers Benchmarks

SIG

HYP

arXiv cs.LG·22 mai

Hierarchical Variational Policies for Reward-Guided Diffusion

Cadre variationnel hiérarchique pour adapter les modèles de diffusion prétrained à des objectifs de récompense. Formule l'adaptation en temps de test comme une politique stochastique légère qui amortit le contrôle par étape. Sur super-résolution 4x : qualité perceptuelle supérieure avec inférence 5x plus rapide que les baselines.

Reinforcement learning Génération d'images

SIG

HYP

Reddit r/LocalLLaMA·21 mai

Training a vision model from scratch on iPod touch 4 images

Un utilisateur entraîne un modèle DCGAN from scratch sur 350 images d'un gobelet rouge Solo prises avec un iPod touch 4, en variant les conditions d'éclairage et arrière-plans. L'objectif : capturer les artefacts spécifiques du capteur de l'appareil. Les résultats rappellent DALL-E 2022.

Génération d'images Open source

SIG

HYP

Le Big Data·20 mai

Ne vous faites plus avoir : les images de ChatGPT ont désormais une « marque »

OpenAI ajoute une marque invisible aux images générées par ChatGPT pour les identifier et lutter contre la désinformation. Cette technique de watermarking permet de détecter les contenus IA générés.

GPT Génération d'images Sécurité IA

SIG

HYP

Hacker News (AI)·19 mai

OpenAI Adopts Google's SynthID Watermark for AI Images with Verification Tool

OpenAI intègre le watermark SynthID de Google dans DALL-E pour marquer les images générées par IA. Un outil de vérification permet de détecter ces marquages invisibles, renforçant la traçabilité des contenus synthétiques.

OpenAI Génération d'images Sécurité IA

SIG

HYP