It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
Signal
78
Hype
15
En 3 lignesÉtude de 432 expériences sur 6 modèles (4 tiers de capacité) testant l'hypothèse que les modèles plus puissants nécessitent moins de structure. Résultats : relation non-monotone. Gemini 2.5 Flash voit ses performances baisser de 29-38pp avec plus de verbosité. Qwen3.5-122B (reasoning) atteint 91.7% VTSR avec harness strict. Taxonomie de 6 défaillances identifiée.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain