MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation
Signal
72
Hype
28
En 3 lignesMAVEN est un framework multi-agent pour améliorer la fidélité culturelle dans la génération vidéo à partir de texte. Il décompose les prompts en dimensions personne/action/lieu traitées par des agents spécialisés. Benchmark de 243 prompts culturels et 972 vidéos (chinois, américain, roumain) avec évaluation CLIP + VLM.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain