arXiv cs.CL·19 mai 2026

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

Signal

Hype

En 3 lignesSTT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLM à adapter leurs plans face à des changements spatio-temporels dynamiques. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL en ligne.

Lire la source

Ton avis ?

Agents IA Benchmarks Reinforcement learning Raisonnement Claude

Résumé généré par Claude — vérifié par l'humain

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

Autres angles sur ce sujet