Topic

#Génération de vidéos

La génération de vidéos par IA désigne la création automatique de séquences animées à partir d'un texte, d'une image ou d'un son. Sora (OpenAI) est un exemple de modèle capable de produire des clips réalistes depuis une simple description textuelle.

40Articles
13Sources
65Signal moyen
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> harry0703 /</span> MoneyPrinterTurbo

MoneyPrinterTurbo : outil open-source générant des vidéos courtes haute définition en un clic via modèles IA. Automatise la création de contenu vidéo.

Génération de vidéosOpen sourceOutils
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> harry0703 /</span> MoneyPrinterTurbo

MoneyPrinterTurbo : outil open-source générant des vidéos courtes HD en un clic via modèles IA. Automatise la création de contenu vidéo.

Génération de vidéosOpen sourceOutils
SIG
45
HYP
00
arXiv cs.LG·

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion

Les modèles de diffusion vidéo autorégressifs utilisent un cache KV quantifié pour réduire la mémoire, mais la quantization crée un biais d'attention (Jensen bias) qui dégrade la qualité. Les auteurs proposent une correction per-attention-score calculée à partir des pas de quantization, récupérant la qualité perdue avec INT2 tout en utilisant 50% moins de mémoire qu'INT4.

Génération de vidéosRaisonnementBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2

Tail-Aware HiFloat4 applique la quantification post-entraînement W4A4 au modèle Wan2.2 de génération vidéo texte. La méthode adapte ViDiT-Q en utilisant le format HiFloat4, quantifie les couches linéaires du transformer, préserve les modules sensibles en haute précision, et introduit un calibrage percentile conscient des queues d'activation pour réduire l'impact des valeurs aberrantes.

Génération de vidéosFine-tuningBenchmarks
SIG
72
HYP
00
arXiv cs.AI·

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

PRISM est un benchmark de 10 372 paires instruction-code pour l'évaluation de la génération vidéo programmatique par LLM. Il propose 4 métriques : fiabilité du code, cohérence spatiale, complexité visuelle et densité temporelle. L'évaluation de 7 LLM révèle un écart d'exécution-spatial de 41% : le code exécutable ne garantit pas une sortie visuellement cohérente.

BenchmarksGénération de codeGénération de vidéos
SIG
82
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> heygen-com /</span> hyperframes

Hyperframes est un framework permettant aux agents IA de générer du contenu vidéo via HTML. Outil conçu pour automatiser la création vidéo dans les workflows d'agents.

Agents IAGénération de vidéosOutils
SIG
45
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> HKUDS /</span> ViMax

ViMax est un système de génération vidéo agentique intégrant directeur, scénariste, producteur et générateur vidéo. Le projet GitHub propose une architecture multi-agents pour orchestrer la création vidéo de bout en bout.

Agents IAMulti-agentsGénération de vidéos
SIG
45
HYP
00
arXiv cs.AI·

Focused Forcing: Content-Aware Per-Frame KV Selection for Efficient Autoregressive Video Diffusion

Focused Forcing optimise les caches KV dans la génération vidéo diffusion autorégressive en sélectionnant par frame et par head les frames historiques pertinents. La méthode combine scores d'attention et scores de diversité, atteignant 1.48× d'accélération sans entraînement tout en améliorant la qualité visuelle et l'alignement textuel.

Génération de vidéosRaisonnementÉvaluations
SIG
75
HYP
00
arXiv cs.AI·

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Lance est un modèle multimodal unifié léger supportant compréhension, génération et édition d'images et vidéos. Basé sur une architecture dual-stream mixture-of-experts avec encodage positionnel rotatif modulé par modalité, il combine apprentissage multi-tâche collaboratif et planification adaptative des données pour surpasser les modèles open-source existants en génération visuelle.

VisionGénération de vidéosGénération d'images
SIG
72
HYP
00
arXiv cs.AI·

Genflow Ad Studio: A Compound AI Architecture for Brand-Aligned, Self-Correcting Video Generation

Genflow est une architecture IA composée pour la génération vidéo alignée à la marque. Elle combine un module d'extraction 'Brand DNA' par récupération et une boucle de contrôle qualité multi-agents adversariale. Le système itère entre générateurs et évaluateurs jusqu'à consensus, améliorant la conformité de 42% à 89%.

Multi-agentsGénération de vidéosAgents IA
SIG
72
HYP
00
arXiv cs.AI·

AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training

AdaptiveLoad optimise l'entraînement des Transformers de diffusion vidéo (DiT, MMDiT) en résolvant le déséquilibre de charge causé par la complexité quadratique de l'attention. Deux composants : équilibrage adaptatif dual et kernel CUDA LayerNorm-Modulate fusionné. Sur Wan 2.1 : déséquilibre computationnel réduit de 39% à 18,9%, utilisation VRAM +22,7%, débit +27,2%.

Génération de vidéosInfrastructureBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

Geometry-aware 4D Video Generation for Robot Manipulation

Modèle de génération vidéo 4D pour la manipulation robotique qui enforce la cohérence multi-vue 3D via supervision par alignement de pointmap cross-view. Génère des séquences vidéo spatio-temporellement alignées à partir d'une seule image RGB-D par vue, sans poser en entrée. Démontre stabilité visuelle supérieure et récupération de trajectoires d'effecteur robot sur datasets simulés et réels.

RobotiqueGénération de vidéosVision
SIG
72
HYP
00
arXiv cs.AI·

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Fre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.

VisionGénération de vidéosÉvaluations
SIG
72
HYP
00
arXiv cs.AI·

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG est un framework RAG multi-modal qui récupère et intègre des connaissances de sources hétérogènes (texte, images, vidéos) à granularités variables. Il introduit le routage conscient de la modalité pour éviter le biais intra-modal et organise chaque modalité en niveaux de granularité. Validé sur 10 benchmarks, il surpasse les baselines mono-modales et unifiées.

RAGVisionGénération de vidéos
SIG
75
HYP
00
arXiv cs.AI·

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

SIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.

Génération d'imagesGénération de vidéosReinforcement learning
SIG
72
HYP
00
Génération de vidéos — actualité IA · Signal IA