Topic

#Voix

En IA, la voix désigne les technologies de synthèse et de reconnaissance vocale permettant à une machine de parler ou de comprendre la parole humaine. ElevenLabs, par exemple, génère des voix synthétiques réalistes à partir de texte.

40Articles

8Sources

71Signal moyen

arXiv cs.CL·18 juin

Speech-Driven End-to-End Language Discrimination towards Chinese Dialects

Article proposant une approche speech-driven pour la discrimination entre dialectes chinois. Combine features MFCC, modèle HMM-DNN pour la reconnaissance vocale, attention mechanism et CNN. Évaluation sur deux corpus benchmark montre amélioration vs état de l'art.

Voix Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

Montreal Forced Aligner and the state of speech-to-text alignment in 2026

Montreal Forced Aligner 3.0, outil de référence depuis 2016 pour l'alignement forcé parole-texte, atteint des performances état-de-l'art sur l'anglais, le japonais et le coréen avec erreurs limites <15ms. Nouvelles capacités : adaptation de modèles, remappage cross-langue, couverture étendue (langues/dialectes), dictionnaires IPA harmonisés.

Voix Benchmarks Open source

SIG

HYP

arXiv cs.CL·18 juin

Continuous Audio Thinking for Large Audio Language Models

Continuous Audio Thinking (CoAT) ajoute un espace latent continu aux modèles audio-langage pour préserver les informations acoustiques (phonétique, prosodie, affect, pitch) avant génération de texte. Testé sur Qwen2-Audio, Qwen2.5-Omni-7B et Audio Flamingo, CoAT améliore les performances en raisonnement audio, classification musicale et transcription sans coût de décodage supplémentaire.

Raisonnement Voix Qwen

SIG

HYP

arXiv cs.LG·18 juin

ASTRA: A Scalable Next-Generation ATCO Training Simulator with Autonomous Simpilots

ASTRA est un simulateur de formation pour contrôleurs aériens qui automatise les rôles de pilotes via une pipeline de reconnaissance vocale, interprétation et génération de réponses. Le système réduit le taux d'erreur de reconnaissance vocale de 107,80% à 23,45% sur l'accent singapourien, et évalue les communications radio avec scores de 91,7% (précision), 88,2% (brièveté), 86,9% (complétude).

Voix Fine-tuning Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Low-resource Language Discrimination Towards Chinese Dialects with Transfer learning and Data Augmentation

Framework CDDTLDA pour discriminer les dialectes chinois en contexte de ressources limitées. Utilise transfer learning sur modèles ASR, augmentation de données (vitesse, pitch, bruit) et mécanisme d'auto-attention pour capturer les features sémantiques communes. Surpasse les méthodes SOTA sur deux corpus de référence.

Voix Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·17 juin

I released Inflect-Nano, an ultra-extreme tiny 4.63m parameter TTS model.

Inflect-Nano-v1, modèle TTS de 4.63M paramètres, est le 2e plus petit modèle de synthèse vocale public. Composé d'un modèle acoustique (3.46M) et d'un vocoder (1.17M), il génère de l'audio 24 kHz en anglais. ~17x plus petit que Kokoro, ~108x plus petit que Chatterbox. Exécutable localement en PyTorch, adapté aux appareils embarqués et assistants vocaux hors ligne.

Voix Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·17 juin

A Year Building a Fully Local Home Voice Assistant · Fulloch

Un développeur a documenté 12 mois de travail pour construire un assistant vocal domestique local avec des modèles open-source, en remplacement d'Alexa. Retour d'expérience sur les approches qui ont fonctionné et les obstacles rencontrés.

Open source Voix Agents IA

SIG

HYP

Reddit r/MachineLearning·17 juin

Mel AI just shared a demo of video-native AI characters that can talk, react, and respond to camera context in real time [N]

Mel AI démontre des personnages IA vidéo-natifs capables de parler, synchroniser les lèvres, réagir faciales et répondre en temps réel au contexte caméra. Le système détecte l'environnement visuel de l'utilisateur et adapte ses réactions. Cette approche dépasse le chat textuel de Character AI (fondé par d'anciens développeurs Google/LaMDA).

Agents IA Vision Voix

SIG

HYP

arXiv cs.CL·17 juin

Are you speaking my languages? On spoken language adherence in multimodal LLMs

Les LLM pour la reconnaissance vocale multilingue confondent souvent la langue de sortie. Les auteurs proposent trois stratégies : prompting zéro-shot, fine-tuning supervisé et raisonnement Chain-of-Thought pour améliorer l'adhérence linguistique sans contraindre strictement la sortie ni perdre les capacités de code-switching.

Voix Prompt engineering Fine-tuning

SIG

HYP

arXiv cs.AI·17 juin

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

SpeechDx est un benchmark multi-tâches pour l'IA clinique basée sur la parole, couvrant 12 datasets et 27 tâches sur diverses conditions de santé. Les tâches sont structurées par étapes de production vocale (conceptualisation, formulation, articulation). L'évaluation de 12 encodeurs audio montre que les modèles de parole à grande échelle surpassent les modèles spécialisés, mais aucun ne généralise fiablement.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.CL·17 juin

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

MultiClin, un benchmark ASR clinique, évalue la robustesse des modèles de reconnaissance vocale face à la variabilité multiscript (plusieurs formes orthographiques valides du même terme). Les métriques conventionnelles sous-estiment les performances. L'unification des scripts améliore significativement les résultats.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Perceptual compensation for tonal context in self-supervised speech models

Étude sur wav2vec2.0 examinant la compensation perceptuelle pour le contexte tonal en mandarin. Les modèles pré-entraînés non supervisés ne montrent pas de compensation dans les similarités d'embeddings. Les classifieurs de probing révèlent une compensation partielle mais ne répliquent pas les performances humaines. Les objectifs supervisés semblent nécessaires pour abstraire certaines régularités phonologiques.

Papers Évaluations Voix

SIG

HYP

arXiv cs.CL·17 juin

Learning task-specific subspaces via interventional post-training of speech foundation models

Méthode de post-entraînement pour les modèles de fondation vocale via apprentissage contrastif interventionnel. Transforme les représentations enchevêtrées en sous-espaces séparés (contenu/locuteur) en utilisant un dataset interventionnel et une perte contrastive multi-parties. Améliore la vérification de locuteur hors-domaine et la détection de mots-clés.

Voix Fine-tuning Papers

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Large Language Models Abilities for Addressee, Turn-change, and Next Speaker Prediction in Meetings

Étude comparative des capacités des LLM pour prédire le locuteur suivant, les changements de tour et l'adressataire dans des conversations multi-parties. Sur le corpus AMI, les LLM surpassent les modèles supervisés et les humains en prédiction du locuteur suivant sans accès audio-visuel. Les MM-LLM dépassent les LLM textuels mais restent sous la performance humaine pour l'adressataire et les changements de tour.

Benchmarks Évaluations Vision

SIG

HYP

arXiv cs.CL·17 juin

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

Étude sur le fine-tuning bilingue pour la reconnaissance vocale en langues peu dotées. Évaluation sur 9 paires linguistiques avec tokens d'identification de langue en entrée. Résultat : le fine-tuning bilingue améliore les performances quand l'identification de langue est précise ; fournir le token à l'inférence compense les erreurs d'identification.

Voix Fine-tuning Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

A fast, optimised, and open source application for running local AI easily (made for Apple Silicon only)

AeroLLM, application open source optimisée pour Apple Silicon, permet d'exécuter localement des LLM, TTS et STT via une interface graphique. Utilise MLX pour l'inférence native, télécharge les modèles depuis Hugging Face avec recommandations RAM, expose une API optionnelle. Version 0.1.0 disponible.

Open source Outils Llama

SIG

HYP

arXiv cs.CL·16 juin

A Practical Evaluation Method for Long-Form Simultaneous Speech-to-Speech Translation

Nouvelle méthode d'évaluation pratique pour la traduction simultanée parole-à-parole (SimulS2ST) sur longs énoncés continus. Utilise ASR, alignement forcé et embeddings de phrases pour récupérer timestamps et aligner texte cible aux phrases source, puis calcule latence et qualité (YAAL, xCOMET) au niveau phrase. Révèle accumulation substantielle de latence sur longs discours.

Voix Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Evaluating and Preserving Lexical Stress in English-to-Chinese Speech-to-Speech Translation

Étude sur le transfert de l'accent lexical en traduction parole-à-parole anglais-chinois. Les auteurs créent un dataset annoté en chinois mandarin, développent un détecteur d'accent basé XLS-R et proposent une métrique d'évaluation objective. Un système S2ST affiné sur CosyVoice3 surpasse les systèmes existants en préservant l'accent tout en maintenant la qualité de traduction.

Voix Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·15 juin

The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models

Étude des représentations internes dans les LLMs textuels et un modèle ASR pour examiner si les verbes phraséaux V+up développent des représentations distinctes selon la fréquence et la prévisibilité. Tous les modèles montrent des preuves de stockage holistique piloté par ces facteurs, soutenant les théories linguistiques basées sur l'usage.

Papers Raisonnement Voix

SIG

HYP

arXiv cs.CL·15 juin

Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

Nouvelle approche de continual learning pour améliorer la reconnaissance vocale (ASR) sur les discours disfluents. Les chercheurs introduisent des tokens explicites de disfluence dans un modèle ASR préentraîné, puis continuent l'entraînement sur des datasets variés. Analyse révèle un compromis entre apprentissage des marqueurs et performance ASR.

Voix Papers

SIG

HYP

arXiv cs.CL·15 juin

MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition

MoDiCoL est un dataset de continual learning modulaire pour évaluer la robustesse des systèmes ASR face aux variations réelles (accents, bruits, conditions d'enregistrement, troubles de la parole). Les auteurs proposent un curriculum inspiré du monde réel et évaluent trois stratégies de continual learning pour analyser comment la robustesse se développe, se transfère et s'oublie.

Benchmarks Évaluations Voix

SIG

HYP

arXiv cs.CL·15 juin

BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

BayLing-Duplex est un modèle de langage parlé full-duplex natif basé sur un LLM autorégressif unique, sans module VAD externe. Entraîné sur 400K échantillons avec fine-tuning et DPO, il atteint 92% de succès en gestion des tours et 100% en interruptions sur InstructS2S-Eval, améliorant le score de réponse vocale de 2,17 à 3,39 par rapport à Moshi.

Voix Agents IA Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Voice-to-voice chatbot update

Chatbot vocal local temps quasi-réel utilisant Qwen3.5-397B (Unsloth UD-Q3_K_XL), Whisper-small (STT) et Orpheus Q4_K_XL (TTS) avec décodeur SNAC custom sur ONNX. Interruptible, contexte préservé, 21.3 GB VRAM max sur GPU 24GB, cache KV bf16 131k tokens. Code GitHub annoncé.

Qwen Voix Génération de code

SIG

HYP

Reddit r/LocalLLaMA·13 juin

ZONOS2: real-time TTS with 8B params, 900M active, and high-fidelity voice cloning

Zyphra publie ZONOS2, un modèle TTS open-source (Apache 2.0) avec 8B paramètres et 900M actifs en inférence. Sparse MoE spécialisé en clonage vocal zéro-shot haute-fidélité (44.1 kHz DAC). Score Prosody 88.7, surpassant Qwen 3 TTS (87.6) et ElevenLabs V3 (83.2). Traité sur 6M+ heures audio, lit UTF-8 brut sans phonémiseur.

Voix Open source Benchmarks

SIG

HYP

Simon Willison·12 juin

OpenAI WebRTC Audio Session, now with document context

Simon Willison a mis à jour son outil WebRTC pour OpenAI avec support du modèle GPT-Realtime-2 (reasoning GPT-5-class) et ajout de contexte documentaire. Les utilisateurs peuvent désormais coller du texte pour discuter vocalement de documents spécifiques dans le navigateur.

OpenAI Voix Outils

SIG

HYP

ActuIA·12 juin

OVHcloud-Gladia : la brique vocale qui manquait au cloud souverain

OVH Groupe négocie l'acquisition de Gladia, startup française spécialisée en reconnaissance vocale et transcription IA. Cette acquisition vise à renforcer l'offre cloud souverain d'OVH en ajoutant des capacités de traitement audio native.

Voix Open source Business

SIG

HYP

GitHub Trending·12 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA-NeMo /</span> NeMo

NVIDIA NeMo est un framework open-source pour construire des modèles IA génératifs : LLM, multimodal, ASR et TTS. Conçu pour chercheurs et développeurs, il offre une base scalable pour l'entraînement et le déploiement.

Open source Infrastructure Génération de code

SIG

HYP

arXiv cs.CL·12 juin

PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue

PRISM est un framework multi-agent pour le dialogue parlé empathique qui découple perception vocale, génération de réponse et synthèse vocale. Il introduit un mécanisme de traduction prosody-to-language pour stabiliser le raisonnement des LLM et intègre des outils de connaissance externes. Résultats : amélioration de l'empathie, de l'adéquation prosodique et de la qualité des réponses.

Multi-agents Voix Agents IA

SIG

HYP

arXiv cs.CL·12 juin

NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

NaturalFlow optimise la traduction simultanée parole-à-parole en réduisant les pauses entre chunks pour améliorer la fluidité acoustique. Le framework exploite des signaux internes (diversité linguistique, variabilité temporelle) pour équilibrer latence basse et naturalité du discours, validé sur benchmarks court et long terme.

Voix Papers Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·11 juin

How I implemented ASR bias for voice transcription models [Open Source]

Un développeur a implémenté l'ASR biasing (guidage de transcription) dans un clone open source de Whisper Flow. Cette technique injecte un vocabulaire personnalisé dans le prompt système du modèle pour améliorer la reconnaissance de mots spécifiques. Compatible avec Groq, OpenAI, Deepgram et modèles locaux (whisper.cpp, MLX).

Voix Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·11 juin

Infinite Music Glitch on my Arduino with Magenta Realtime 2

Un utilisateur a construit un système local de musique IA en temps réel sur ESP32 et MacBook M4 Pro. L'ESP32 capture la voix via MLX Whisper, un modèle Qwen décide des appels d'outils (ajouter batterie, Lo-fi, Jazz, retirer guitare), et Magenta Realtime 2 génère la musique localement via WebSockets.

Agents IA Voix Open source

SIG

HYP

arXiv cs.AI·11 juin

MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation

MA-DLE propose une méthode d'augmentation mémoire pour estimer automatiquement les niveaux de dépression à partir de la parole. Le système utilise un GRU enrichi par une banque mémoire sélective (features temporelles historiques + features dynamiques basées sur la variabilité) et un module Hierarchical Attention Fusion. Évalué sur DAIC-WOZ et E-DAIC, il atteint l'état de l'art.

Voix Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·11 juin

Context-Aware Multimodal Claim Verification in Spoken Dialogues

MAD2 est un benchmark de 1 000 dialogues audio bilocuteurs (3 368 claims vérifiables, ~10h audio) pour la détection de désinformation en conversation. Les auteurs proposent une fusion multimodale calibrée combinant un encodeur audio contextuel et un modèle texte dialogue-aware. Le contexte conversationnel améliore la vérification plus que le framing de la désinformation.

Benchmarks Vision Voix

SIG

HYP

arXiv cs.CL·11 juin

Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents

Afrispeech Semantics évalue le raisonnement sémantique audio dans les modèles de langage parlé sur cinq tâches : inférence, cohérence, plausibilité, dérive d'accent et retenue d'accent. L'étude révèle des limitations critiques dans l'évaluation du raisonnement audio au-delà de la transcription, notamment face aux variations d'accent et aux changements de domaine.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.CL·11 juin

Pretrained self-supervised speech models can recognize unseen consonants

Des modèles de reconnaissance vocale auto-supervisés (Wav2Vec2, HuBERT) fine-tunés sur des langues Khoisan (G|ui, West !Xoon) reconnaissent les consonnes clics avec une précision supérieure aux consonnes non-clics, démontrant que l'auto-supervision généralise aux phonèmes rares.

Papers Benchmarks Voix

SIG

HYP

Reddit r/LocalLLaMA·11 juin

I wired a fully offline voice loop to Ollama + LM Studio — 100% CPU, no GPU, nothing leaves your machine (Silero VAD + Parakeet STT + Supertonic TTS 3)

Développeur crée une boucle vocale entièrement hors ligne pour Ollama + LM Studio. Stack : Silero VAD (détection activité vocale), Parakeet TDT 0.6B (STT ONNX INT8, 25 langues), Supertonic TTS 3 (synthèse ONNX multilingue). CPU uniquement, zéro données quittent la machine. Cross-platform (macOS/Linux/Windows), testé sur ThinkPad 4 ans.

Voix Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·10 juin

Tried to benchmark Google’s new on-device dictation models (Eloquent) and basically couldn’t

Un développeur a tenté de benchmarker Eloquent, la nouvelle app de dictation locale de Google avec modèles propriétaires. Résultat : ~50% des dictations reviennent incomplètes (20+ mots réduits à 5-10). Quand la transcription est complète (15/50 tests), la précision est compétitive (~24% WER vs ~21% pour Qwen3-ASR), mais le modèle chat refuse souvent de transcrire au lieu de produire du texte.

DeepMind Benchmarks Voix

SIG

HYP

Reddit r/LocalLLaMA·10 juin

Anyone gotten Gemma 4 12B (unified audio) to actually attend to speech with a large system prompt?

Utilisateur rapporte que Gemma 4 12B (modèle unifié audio/vision/texte) ignore l'audio quand le system prompt dépasse ~21k tokens. Le modèle fonctionne bien avec prompt minimal mais génère des réponses génériques/halluccinées avec contexte dense. Comportement reproductible sur vLLM, llama.cpp et LiteRT-LM. Semble être une limite d'attention inhérente.

Gemini Voix Multi-agents

SIG

HYP

arXiv cs.CL·10 juin

ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models

ParaBridge est une méthode d'auto-distillation qui enseigne aux Speech Language Models à utiliser les indices paralinguistiques (ton, émotion, bruit) dans le dialogue. Sur Qwen3-Omni-thinking, elle augmente VoxSafeBench SAR de 14,6% à 40,3% et améliore EchoMind de 3,27 à 3,92, tout en préservant les capacités générales.

Voix Raisonnement Fine-tuning

SIG

HYP

arXiv cs.AI·10 juin

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

Étude d'interprétabilité sur les modèles audio-visuels (AVLLMs) : analyse du flux d'information entre tokens audio et visuels dans Qwen2.5-Omni et Video-SALMONN2 Plus (3B/7B). Les auteurs montrent que les tokens audio-visuels peuvent être supprimés après transfert d'information sans dégradation, améliorant l'efficacité d'inférence.

Vision Voix Évaluations

SIG

HYP