Reddit r/MachineLearning·18 mai 2026

Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]

Signal

Hype

En 3 lignesDéveloppement d'un runtime CUDA optimisé pour l'inférence petit batch (robotique, VLA). Les goulots d'étranglement ne sont pas les GEMM seuls mais les surcoûts runtime : fragmentation kernels, transitions layout, conversions précision (FP8/FP4), scheduling Python. Résultats : Pi0.5 sur RTX 5090 ~17.6ms, GROOT N1.6 ~12.5-13.1ms, Qwen 27B ~129 tok/s.

Lire la source

Ton avis ?

Génération de code Infrastructure Robotique Benchmarks

Résumé généré par Claude — vérifié par l'humain

Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]

Autres angles sur ce sujet