Retour au feed
STORY · MULTI-SOURCES·2 sources·SIG 65

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

CODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.

RaisonnementInfrastructureBenchmarks

Chronologie

  1. 22 mai 04:54
    Hacker News (AI)CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

    CODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.

    SIG 65
  2. 22 mai 19:25
    Reddit r/LocalLLaMACODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

    CODA est une abstraction GPU qui réécrit les blocs Transformer en programmes GEMM-épilogue. Elle fusionne les opérations mémoire-limitées (normalisation, activations, résidus) avec la sortie GEMM avant écriture en mémoire, réduisant les mouvements de données. Couvre presque tout le calcul non-attention en forward/backward pass.

    SIG 78

Convergences

Entités citées par plusieurs sources.

Angles divergents

Topics présents seulement dans certaines sources.

Lire la source primaire