arXiv cs.AI·19 mai 2026

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Signal

Hype

En 3 lignesSpeech-Hands est un framework vocal agentic qui apprend à décider quand faire confiance à ses prédictions ou consulter des perceptions audio externes. Le modèle réduit le WER de 12,1% sur 7 benchmarks OpenASR et atteint 77,37% de précision en audio QA, en utilisant un mécanisme d'auto-réflexion pour éviter les hypothèses bruitées.

Lire la source

Ton avis ?

Agents IA Voix Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Autres angles sur ce sujet