Reddit r/LocalLLaMA·27 mai 2026

Fused MoE dispatch kernel in pure Triton: 89-131% of Megablocks, runs on AMD with zero code changes

Signal

Hype

En 3 lignesKernel de dispatch MoE fusionné écrit en pur Triton (sans CUDA) atteint 89-131% des performances de Megablocks sur A100. Fusionne gate+up projections pour réduire 35% du trafic mémoire. Fonctionne sur AMD MI300X sans modification. Limitations : performance dégradée au-delà de 2048 tokens et avec 64+ experts.

Lire la source

Ton avis ?

Open source Infrastructure Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

Fused MoE dispatch kernel in pure Triton: 89-131% of Megablocks, runs on AMD with zero code changes

Autres angles sur ce sujet