arXiv cs.CL·19 mai 2026

Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

Signal

Hype

En 3 lignesÉtude des représentations internes des Large Reasoning Models (LRMs) via des trajectoires de probes. Les auteurs montrent que l'évolution continue d'un concept pendant le raisonnement prédit mieux le comportement final que des prédictions statiques. Max-pooling atteint 95% AUROC sur 4 datasets (sécurité, mathématiques).

Lire la source

Ton avis ?

Raisonnement Sécurité IA Évaluations

Résumé généré par Claude — vérifié par l'humain

Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

Autres angles sur ce sujet