Retour au feed
arXiv cs.AI·

Interactive Benchmarks

Signal
75
Hype
15
En 3 lignesNouvelle approche d'évaluation Interactive Benchmarks pour tester le raisonnement des modèles via interaction multi-tour budgétée. Deux cadres : Interactive Proofs (logique, UI2Html, mathématiques avec feedback objectif) et Interactive Games (raisonnement stratégique). Révèle des lacunes importantes dans les capacités interactives actuelles.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain