STORY · MULTI-SOURCES·2 sources·SIG 65

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

CODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.

Raisonnement Infrastructure Benchmarks

Chronologie

22 mai 04:54
Hacker News (AI)CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
CODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.
SIG 65
22 mai 19:25
Reddit r/LocalLLaMA CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
CODA est une abstraction GPU qui réécrit les blocs Transformer en programmes GEMM-épilogue. Elle fusionne les opérations mémoire-limitées (normalisation, activations, résidus) avec la sortie GEMM avant écriture en mémoire, réduisant les mouvements de données. Couvre presque tout le calcul non-attention en forward/backward pass.
SIG 78

Convergences

Entités citées par plusieurs sources.

CODA×2

Angles divergents

Topics présents seulement dans certaines sources.

#reasoning1/2
#code-gen1/2

Lire la source primaire