arXiv cs.AI·17 juin 2026

How Inference Compute Shapes Frontier LLM Evaluation

Signal

Hype

En 3 lignesÉtude sur 12 modèles frontière évaluant l'impact du compute d'inférence sur les performances. Trois interventions testées : budgets de tokens plus larges, compaction de contexte, tentatives répétées. Résultats : les budgets augmentés améliorent significativement les performances sur FrontierMath, Humanity's Last Exam, TerminalBench. Les évaluations à budget fixe sous-estiment les capacités des modèles récents.

Lire la source

Ton avis ?

Benchmarks Évaluations Raisonnement

Résumé généré par Claude — vérifié par l'humain

How Inference Compute Shapes Frontier LLM Evaluation

Autres angles sur ce sujet