Why do we benchmark quants on perplexity and prose but never on tool call validity?
Signal
35
Hype
15
En 3 lignesUn utilisateur de r/LocalLLaMA soulève que les benchmarks de quantification se concentrent sur la perplexité et la qualité prose, mais ignorent la validité des appels d'outils. Il hypothèse que les erreurs de quantification dégradent les sorties structurées (JSON, schémas) plus tôt que le texte libre, rendant les métriques actuelles inadéquates pour les cas d'usage agentiques.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain