Reddit r/LocalLLaMA·28 mai 2026

Heterogeneous GPU Weighting & Layer Splitting

Signal

Hype

En 3 lignesOptimisation du partage de charge entre GPUs hétérogènes (RTX 5090 + 3090) dans Ollama. Implémentation d'une pondération basée sur la puissance de calcul (SMCount × ClockMHz) plutôt que sur la VRAM seule. Résultat : vitesse supérieure à une 5090 isolée, meilleure utilisation de la VRAM du 3090 sans handicaper la 5090.

Lire la source

Ton avis ?

Open source Infrastructure Llama

Résumé généré par Claude — vérifié par l'humain

Heterogeneous GPU Weighting & Layer Splitting

Autres angles sur ce sujet