Fused MoE dispatch kernel in pure Triton: 89-131% of Megablocks, runs on AMD with zero code changes
Signal
78
Hype
25
En 3 lignesKernel de dispatch MoE fusionné écrit en pur Triton (sans CUDA) atteint 89-131% des performances de Megablocks sur A100. Fusionne gate+up projections pour réduire 35% du trafic mémoire. Fonctionne sur AMD MI300X sans modification. Limitations : performance dégradée au-delà de 2048 tokens et avec 64+ experts.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain