Retour au feed
Reddit r/MachineLearning·

Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]

Signal
78
Hype
25
En 3 lignesDéveloppement d'un runtime CUDA optimisé pour l'inférence petit batch (robotique, VLA). Les goulots d'étranglement ne sont pas les GEMM seuls mais les surcoûts runtime : fragmentation kernels, transitions layout, conversions précision (FP8/FP4), scheduling Python. Résultats : Pi0.5 sur RTX 5090 ~17.6ms, GROOT N1.6 ~12.5-13.1ms, Qwen 27B ~129 tok/s.
Lire la source
Ton avis ?
Génération de codeInfrastructureRobotiqueBenchmarks

Résumé généré par Claude — vérifié par l'humain