Retour au feed
Reddit r/LocalLLaMA·

Fused MoE dispatch kernel in pure Triton: 89-131% of Megablocks, runs on AMD with zero code changes

Signal
78
Hype
25
En 3 lignesKernel de dispatch MoE fusionné écrit en pur Triton (sans CUDA) atteint 89-131% des performances de Megablocks sur A100. Fusionne gate+up projections pour réduire 35% du trafic mémoire. Fonctionne sur AMD MI300X sans modification. Limitations : performance dégradée au-delà de 2048 tokens et avec 64+ experts.
Lire la source
Ton avis ?
Open sourceInfrastructureGénération de codeBenchmarks

Résumé généré par Claude — vérifié par l'humain