Agentic Transformers Provably Learn to Search via Reinforcement Learning
Signal
78
Hype
15
En 3 lignesÉtude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain