Reddit r/LocalLLaMA·31 mai 2026

Whats actually happening when a model spills out of VRAM into system memory?

Signal

Hype

En 3 lignesDiscussion technique sur le fonctionnement du débordement VRAM dans llama.cpp. Un utilisateur exécute Gemma-4 26B (21GB) sur RX6600XT + Ryzen 7 5700X avec 32GB RAM, obtenant ~20 tokens/s en décodage. Question : comment s'effectue la répartition CPU/GPU et quel rôle joue la vitesse PCIe vs CPU ?

Lire la source

Ton avis ?

Llama Génération de code Infrastructure Agents IA

Résumé généré par Claude — vérifié par l'humain

Whats actually happening when a model spills out of VRAM into system memory?

Autres angles sur ce sujet