Reddit r/MachineLearning·29 mai 2026

Building a monokernel for LLM inference on AMD MI300X - up to 3,300 output tokens/s per request [P]

Signal

Hype

En 3 lignesMonokernel optimisé pour inférence LLM sur AMD MI300X : 3 300 tokens/s en sortie par requête (batch 1, sans décodage spéculatif). Architecture mappée à la topologie physique du GPU. Support initial d'un modèle 2B, MoE frontier prévu.

Lire la source

Ton avis ?

Infrastructure Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

Building a monokernel for LLM inference on AMD MI300X - up to 3,300 output tokens/s per request [P]

Autres angles sur ce sujet