Retour au feed
Reddit r/LocalLLaMA·

We added W8A8 activation quantization to MLX — prefill went from 2.84s to 2.52s on M5 Pro

Signal
72
Hype
25
En 3 lignesMininglamp AI a ajouté la quantization W8A8 (poids et activations en INT8) à MLX via Cider, un SDK avec kernels Metal custom. Sur M5 Pro, prefill passe de 2.84s à 2.52s pour un VLM 4B. Compatible avec tout modèle MLX, mais INT8 TensorOps nécessite M5+.
Lire la source
Ton avis ?
Open sourceInfrastructureOutilsBenchmarks

Résumé généré par Claude — vérifié par l'humain