Transformers Can Implement Preconditioned Richardson Iteration for In-Context Gaussian Kernel Regression
Signal
78
Hype
15
En 3 lignesLes transformers avec attention softmax peuvent implémenter l'itération de Richardson préconditionné pour la régression par noyau gaussien en contexte. Les auteurs construisent un transformer monocouche avec O(log(1/ε)) blocs atteignant une précision ε sur des prompts de longueur N, où l'attention softmax produit un opérateur de noyau gaussien et les couches MLP-ReLU effectuent l'arithmétique scalaire locale.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain