Jetson AGX Orin 64GB: q8_0 good, q6_k bad
Signal
45
Hype
15
En 3 lignesSur Jetson AGX Orin 64GB, la quantification q8_0 offre 20% plus rapide que q6_k et 10% plus rapide que q4_k_xl pour le prefill (traitement de prompt). Test avec Qwen 3.6-27B-MTP-GGUF sur llama.cpp récent : q8_0 atteint 245 tokens/s vs 190 pour q6_k. L'EMC n'est pas saturée, suggérant un problème d'optimisation CUDA plutôt que de bande passante mémoire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain