Reddit r/MachineLearning·27 mai 2026

Cross-Platform Fused MoE Dispatch in Triton: Portable Expert Routing Without CUDA [R]

Signal

Hype

En 3 lignesTritonMoE : kernel MoE en Triton pur pour inférence portable NVIDIA/AMD sans code vendor-spécifique. Gate+up GEMM fusionnés réduisent trafic mémoire de 35%. Atteint 89-131% du débit Megablocks (batch ≤512 tokens) sur A100, même kernel sur MI300X. Limitations : dégradation à 2048+ tokens et avec 64+ experts.

Lire la source

Ton avis ?

Benchmarks Open source

Résumé généré par Claude — vérifié par l'humain

Cross-Platform Fused MoE Dispatch in Triton: Portable Expert Routing Without CUDA [R]

Autres angles sur ce sujet