Retour au feed
Reddit r/LocalLLaMA·

meituan-longcat/LongCat-Video-Avatar-1.5 · Hugging Face

Signal
75
Hype
35
En 3 lignesMeituan annonce LongCat-Video-Avatar 1.5, framework open-source pour la génération vidéo d'avatars humains pilotée par l'audio. Remplace Wav2Vec2 par Whisper-Large, supporte Audio-Text-to-Video et Video Continuation avec inférence en 8 étapes. Évaluation humaine sur 508 paires image-audio couvrant 6 scénarios et 2 langues.
Lire la source
Ton avis ?
Génération de vidéosOpen sourceBenchmarksVoix

Résumé généré par Claude — vérifié par l'humain