arXiv cs.CL·1 juin 2026

Your Multimodal Speech Model Says I Have a Face for Radio

Signal

Hype

En 3 lignesÉtude de biais dans les modèles de reconnaissance vocale multimodaux (audio-visuel). Les chercheurs créent des vidéos appairant différents visages au même audio et mesurent les variations de précision de transcription. Résultats : écarts de qualité jusqu'à 4,05 points d'erreur selon le genre, l'ethnicité et leur intersection sur Whisper-Flamingo et Gemini.

Lire la source

Ton avis ?

Vision Voix Benchmarks Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

Your Multimodal Speech Model Says I Have a Face for Radio

Autres angles sur ce sujet