Retour au feed
Reddit r/LocalLLaMA·

Quick note on the QAT of recent

Signal
35
Hype
25
En 3 lignesCritique technique sur la quantification récente : Google aurait mal implémenté sa quantification (token embed en q6k au lieu de --pure), llama-quantize utilise un hardcoding -7 incorrect, et les 32 block groups sont mal alignés. Unsloth Q4_K_XL fonctionne mieux (pur q4_0). Un patch est en préparation.
Lire la source
Ton avis ?
LlamaOpen sourceOutils

Résumé généré par Claude — vérifié par l'humain