Reddit r/LocalLLaMA·10 juin 2026

Anyone gotten Gemma 4 12B (unified audio) to actually attend to speech with a large system prompt?

Signal

Hype

En 3 lignesUtilisateur rapporte que Gemma 4 12B (modèle unifié audio/vision/texte) ignore l'audio quand le system prompt dépasse ~21k tokens. Le modèle fonctionne bien avec prompt minimal mais génère des réponses génériques/halluccinées avec contexte dense. Comportement reproductible sur vLLM, llama.cpp et LiteRT-LM. Semble être une limite d'attention inhérente.

Lire la source

Ton avis ?

Gemini Voix Multi-agents Prompt engineering

Résumé généré par Claude — vérifié par l'humain

Anyone gotten Gemma 4 12B (unified audio) to actually attend to speech with a large system prompt?

Autres angles sur ce sujet