Retour au feed
arXiv cs.CL·

Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU

Signal
82
Hype
15
En 3 lignesRigel caractérise empiriquement le chemin de calcul tensoriel Metal 4.1 sur Apple M4 Max. Les chercheurs découvrent que l'opération matmul2d fp8 (E4M3) est émulée, non accélérée (0.94x le débit fp16), exécutée sur les shader cores GPU sans datapath matriciel dédié, et accumule en ≥fp32. Un kernel GEMM fusionné gagne +6.5-12.9% en régime cache-resident.
Lire la source
Ton avis ?
BenchmarksInfrastructureGénération de code

Résumé généré par Claude — vérifié par l'humain