The Expressive Power of Low Precision Softmax Transformers with (Summarized) Chain-of-Thought
Signal
78
Hype
15
En 3 lignesAnalyse théorique de transformers standard avec softmax et précision basse, montrant qu'ils peuvent simuler des machines de Turing via Chain-of-Thought. Les auteurs construisent des transformers hardmax avec activations ternaires, puis les convertissent en softmax équivalents sans magnitudes irréalistes. Résultats validés sur Sudoku.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain