arXiv cs.AI·19 mai 2026

Interactive Benchmarks

Signal

Hype

En 3 lignesNouvelle approche d'évaluation Interactive Benchmarks pour tester le raisonnement des modèles via interaction multi-tour budgétée. Deux cadres : Interactive Proofs (logique, UI2Html, mathématiques avec feedback objectif) et Interactive Games (raisonnement stratégique). Révèle des lacunes importantes dans les capacités interactives actuelles.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

Interactive Benchmarks

Autres angles sur ce sujet