CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
CODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.
Chronologie
- 22 mai 04:54Hacker News (AI)CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
CODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.
SIG 65 - 22 mai 19:25Reddit r/LocalLLaMACODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
CODA est une abstraction GPU qui réécrit les blocs Transformer en programmes GEMM-épilogue. Elle fusionne les opérations mémoire-limitées (normalisation, activations, résidus) avec la sortie GEMM avant écriture en mémoire, réduisant les mouvements de données. Couvre presque tout le calcul non-attention en forward/backward pass.
SIG 78
Convergences
Entités citées par plusieurs sources.
- CODA×2
Angles divergents
Topics présents seulement dans certaines sources.
- #reasoning1/2
- #code-gen1/2