Reddit r/LocalLLaMA·4 juin 2026

Jetson AGX Orin 64GB: q8_0 good, q6_k bad

Signal

Hype

En 3 lignesSur Jetson AGX Orin 64GB, la quantification q8_0 offre 20% plus rapide que q6_k et 10% plus rapide que q4_k_xl pour le prefill (traitement de prompt). Test avec Qwen 3.6-27B-MTP-GGUF sur llama.cpp récent : q8_0 atteint 245 tokens/s vs 190 pour q6_k. L'EMC n'est pas saturée, suggérant un problème d'optimisation CUDA plutôt que de bande passante mémoire.

Lire la source

Ton avis ?

Qwen Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

Jetson AGX Orin 64GB: q8_0 good, q6_k bad

Autres angles sur ce sujet