Retour au feed
Reddit r/MachineLearning·

Building a monokernel for LLM inference on AMD MI300X - up to 3,300 output tokens/s per request [P]

Signal
82
Hype
25
En 3 lignesMonokernel optimisé pour inférence LLM sur AMD MI300X : 3 300 tokens/s en sortie par requête (batch 1, sans décodage spéculatif). Architecture mappée à la topologie physique du GPU. Support initial d'un modèle 2B, MoE frontier prévu.
Lire la source
Ton avis ?
InfrastructureGénération de codeBenchmarks

Résumé généré par Claude — vérifié par l'humain