How Inference Compute Shapes Frontier LLM Evaluation
Signal
82
Hype
15
En 3 lignesÉtude sur 12 modèles frontière évaluant l'impact du compute d'inférence sur les performances. Trois interventions testées : budgets de tokens plus larges, compaction de contexte, tentatives répétées. Résultats : les budgets augmentés améliorent significativement les performances sur FrontierMath, Humanity's Last Exam, TerminalBench. Les évaluations à budget fixe sous-estiment les capacités des modèles récents.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain