Retour au feed
Reddit r/LocalLLaMA·

Whats actually happening when a model spills out of VRAM into system memory?

Signal
35
Hype
15
En 3 lignesDiscussion technique sur le fonctionnement du débordement VRAM dans llama.cpp. Un utilisateur exécute Gemma-4 26B (21GB) sur RX6600XT + Ryzen 7 5700X avec 32GB RAM, obtenant ~20 tokens/s en décodage. Question : comment s'effectue la répartition CPU/GPU et quel rôle joue la vitesse PCIe vs CPU ?
Lire la source
Ton avis ?
LlamaGénération de codeInfrastructureAgents IA

Résumé généré par Claude — vérifié par l'humain