Retour au feed
Reddit r/MachineLearning·

Cross-Platform Fused MoE Dispatch in Triton: Portable Expert Routing Without CUDA [R]

Signal
78
Hype
25
En 3 lignesTritonMoE : kernel MoE en Triton pur pour inférence portable NVIDIA/AMD sans code vendor-spécifique. Gate+up GEMM fusionnés réduisent trafic mémoire de 35%. Atteint 89-131% du débit Megablocks (batch ≤512 tokens) sur A100, même kernel sur MI300X. Limitations : dégradation à 2048+ tokens et avec 64+ experts.
Lire la source
Ton avis ?
BenchmarksOpen source

Résumé généré par Claude — vérifié par l'humain