Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception
Speech-Hands est un framework vocal agentic qui apprend à décider quand faire confiance à ses prédictions ou consulter des perceptions audio externes. Le modèle réduit le WER de 12,1% sur 7 benchmarks OpenASR et atteint 77,37% de précision en audio QA, en utilisant un mécanisme d'auto-réflexion pour éviter les hypothèses bruitées.