Retour au feed
arXiv cs.AI·

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

Signal
75
Hype
25
En 3 lignesSTT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLMs à détecter et s'adapter aux changements spatio-temporels. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL online.
Lire la source
Ton avis ?
Agents IABenchmarksRaisonnementReinforcement learningClaude

Résumé généré par Claude — vérifié par l'humain