Retour au feed
Reddit r/LocalLLaMA·

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

Signal
78
Hype
15
1 autres source couvrent ce sujet →
En 3 lignesCODA est une abstraction GPU qui réécrit les blocs Transformer en programmes GEMM-épilogue. Elle fusionne les opérations mémoire-limitées (normalisation, activations, résidus) avec la sortie GEMM avant écriture en mémoire, réduisant les mouvements de données. Couvre presque tout le calcul non-attention en forward/backward pass.
Lire la source
Ton avis ?
InfrastructureBenchmarksGénération de code

Résumé généré par Claude — vérifié par l'humain