CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
Signal
65
Hype
15
En 3 lignesCODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain