arXiv cs.AI·19 mai 2026

MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation

Signal

Hype

En 3 lignesMAVEN est un framework multi-agent pour améliorer la fidélité culturelle dans la génération vidéo à partir de texte. Il décompose les prompts en dimensions personne/action/lieu traitées par des agents spécialisés. Benchmark de 243 prompts culturels et 972 vidéos (chinois, américain, roumain) avec évaluation CLIP + VLM.

Lire la source

Ton avis ?

Multi-agents Génération de vidéos Benchmarks Prompt engineering

Résumé généré par Claude — vérifié par l'humain

MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation

Autres angles sur ce sujet