Retour au feed
arXiv cs.AI·

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Signal
72
Hype
28
En 3 lignesSpeech-Hands est un framework vocal agentic qui apprend à décider quand faire confiance à ses prédictions ou consulter des perceptions audio externes. Le modèle réduit le WER de 12,1% sur 7 benchmarks OpenASR et atteint 77,37% de précision en audio QA, en utilisant un mécanisme d'auto-réflexion pour éviter les hypothèses bruitées.
Lire la source
Ton avis ?
Agents IAVoixRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain