Anyone gotten Gemma 4 12B (unified audio) to actually attend to speech with a large system prompt?
Signal
45
Hype
25
En 3 lignesUtilisateur rapporte que Gemma 4 12B (modèle unifié audio/vision/texte) ignore l'audio quand le system prompt dépasse ~21k tokens. Le modèle fonctionne bien avec prompt minimal mais génère des réponses génériques/halluccinées avec contexte dense. Comportement reproductible sur vLLM, llama.cpp et LiteRT-LM. Semble être une limite d'attention inhérente.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain