Update on 12x32gb sxm v100 cluster / local AI for legal drafting
Signal
72
Hype
15
En 3 lignesUn avocat partage son retour d'expérience sur un cluster de 12 V100-SXM2 32GB pour le traitement juridique local. Après avoir abandonné vLLM pour les modèles MoE (incompatibilité GPU Volta), il utilise llama.cpp avec des modèles comme Gemma-4-26B et Qwen3.5-122B. Les modèles denses sur V100 sont inefficaces (~20-28 tok/s) ; les MoE atteignent 50-113 tok/s en décodage sur contextes longs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain