Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU
Signal
82
Hype
15
En 3 lignesRigel caractérise empiriquement le chemin de calcul tensoriel Metal 4.1 sur Apple M4 Max. Les chercheurs découvrent que l'opération matmul2d fp8 (E4M3) est émulée, non accélérée (0.94x le débit fp16), exécutée sur les shader cores GPU sans datapath matriciel dédié, et accumule en ≥fp32. Un kernel GEMM fusionné gagne +6.5-12.9% en régime cache-resident.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain