One Model, Two Roles: Emergent Specialization in a Shared Recurrent Transformer
Signal
72
Hype
18
En 3 lignesÉtude d'une architecture Transformer récurrente à poids partagés (AIR) capable de développer deux rôles distincts sans partitionnement modulaire. Sur Sudoku-Extreme et Maze, l'état zH agit comme proposition engagée tandis que zL conserve l'incertitude locale. Les expériences de gel et ablations montrent que l'asymétrie d'injection d'entrée induit cette spécialisation fonctionnelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain