Retour au feed
Reddit r/LocalLLaMA·

Update on 12x32gb sxm v100 cluster / local AI for legal drafting

Signal
72
Hype
15
En 3 lignesUn avocat partage son retour d'expérience sur un cluster de 12 V100-SXM2 32GB pour le traitement juridique local. Après avoir abandonné vLLM pour les modèles MoE (incompatibilité GPU Volta), il utilise llama.cpp avec des modèles comme Gemma-4-26B et Qwen3.5-122B. Les modèles denses sur V100 sont inefficaces (~20-28 tok/s) ; les MoE atteignent 50-113 tok/s en décodage sur contextes longs.
Lire la source
Ton avis ?
LlamaOpen sourceInfrastructureGénération de codeRaisonnement

Résumé généré par Claude — vérifié par l'humain