Retour au feed
arXiv cs.CL·

The Expressive Power of Low Precision Softmax Transformers with (Summarized) Chain-of-Thought

Signal
78
Hype
15
En 3 lignesAnalyse théorique de transformers standard avec softmax et précision basse, montrant qu'ils peuvent simuler des machines de Turing via Chain-of-Thought. Les auteurs construisent des transformers hardmax avec activations ternaires, puis les convertissent en softmax équivalents sans magnitudes irréalistes. Résultats validés sur Sudoku.
Lire la source
Ton avis ?
RaisonnementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain