Retour au feed
Reddit r/LocalLLaMA·

Anyone gotten Gemma 4 12B (unified audio) to actually attend to speech with a large system prompt?

Signal
45
Hype
25
En 3 lignesUtilisateur rapporte que Gemma 4 12B (modèle unifié audio/vision/texte) ignore l'audio quand le system prompt dépasse ~21k tokens. Le modèle fonctionne bien avec prompt minimal mais génère des réponses génériques/halluccinées avec contexte dense. Comportement reproductible sur vLLM, llama.cpp et LiteRT-LM. Semble être une limite d'attention inhérente.
Lire la source
Ton avis ?
GeminiVoixMulti-agentsPrompt engineering

Résumé généré par Claude — vérifié par l'humain