Reddit r/LocalLLaMA·25 mai 2026

Update on 12x32gb sxm v100 cluster / local AI for legal drafting

Signal

Hype

En 3 lignesUn avocat partage son retour d'expérience sur un cluster de 12 V100-SXM2 32GB pour le traitement juridique local. Après avoir abandonné vLLM pour les modèles MoE (incompatibilité GPU Volta), il utilise llama.cpp avec des modèles comme Gemma-4-26B et Qwen3.5-122B. Les modèles denses sur V100 sont inefficaces (~20-28 tok/s) ; les MoE atteignent 50-113 tok/s en décodage sur contextes longs.

Lire la source

Ton avis ?

Llama Open source Infrastructure Génération de code Raisonnement

Résumé généré par Claude — vérifié par l'humain

Update on 12x32gb sxm v100 cluster / local AI for legal drafting

Autres angles sur ce sujet