Retour au feed
Hacker News (AI)·

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

Signal
65
Hype
15
1 autres source couvrent ce sujet →
En 3 lignesCODA reformule les blocs transformer en programmes GEMM-Epilogue pour optimiser l'inférence. La technique fusionne les opérations matricielles et post-traitements en une seule primitive GPU, réduisant la latence et la bande passante mémoire.
Lire la source
Ton avis ?
RaisonnementInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain