Reddit r/LocalLLaMA·11 juin 2026

Reviewing speed optimizations on llamacpp for large MoE models on multiGPU rigs? (fitparams vs -ngl/-ncmoe vs other flags, P2P, overclocking)

Signal

Hype

En 3 lignesDiscussion sur les optimisations de vitesse pour llama.cpp avec modèles MoE sur multi-GPU. L'auteur explore les flags -ngl, -ncmoe, -fitt, -ub et leur impact sur throughput (50→120 tps en prompt processing). Débat sur la pertinence pratique de ces optimisations pour une carrière en IA.

Lire la source

Ton avis ?

Llama Open source Infrastructure Génération de code

Résumé généré par Claude — vérifié par l'humain

Reviewing speed optimizations on llamacpp for large MoE models on multiGPU rigs? (fitparams vs -ngl/-ncmoe vs other flags, P2P, overclocking)

Autres angles sur ce sujet