arXiv cs.AI·19 mai 2026

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

Signal

Hype

En 3 lignesSTT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLMs à détecter et s'adapter aux changements spatio-temporels. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL online.

Lire la source

Ton avis ?

Agents IA Benchmarks Raisonnement Reinforcement learning Claude

Résumé généré par Claude — vérifié par l'humain

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

Autres angles sur ce sujet