Retour au feed
Reddit r/LocalLLaMA·

Heterogeneous GPU Weighting & Layer Splitting

Signal
65
Hype
25
En 3 lignesOptimisation du partage de charge entre GPUs hétérogènes (RTX 5090 + 3090) dans Ollama. Implémentation d'une pondération basée sur la puissance de calcul (SMCount × ClockMHz) plutôt que sur la VRAM seule. Résultat : vitesse supérieure à une 5090 isolée, meilleure utilisation de la VRAM du 3090 sans handicaper la 5090.
Lire la source
Ton avis ?
Open sourceInfrastructureLlama

Résumé généré par Claude — vérifié par l'humain