Retour au feed
arXiv cs.CL·

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

Signal
78
Hype
25
En 3 lignesSTT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLM à adapter leurs plans face à des changements spatio-temporels dynamiques. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL en ligne.
Lire la source
Ton avis ?
Agents IABenchmarksReinforcement learningRaisonnementClaude

Résumé généré par Claude — vérifié par l'humain