Your Multimodal Speech Model Says I Have a Face for Radio
Signal
72
Hype
15
En 3 lignesÉtude de biais dans les modèles de reconnaissance vocale multimodaux (audio-visuel). Les chercheurs créent des vidéos appairant différents visages au même audio et mesurent les variations de précision de transcription. Résultats : écarts de qualité jusqu'à 4,05 points d'erreur selon le genre, l'ethnicité et leur intersection sur Whisper-Flamingo et Gemini.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain