arXiv cs.CL·12 juin 2026

Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU

Signal

Hype

En 3 lignesRigel caractérise empiriquement le chemin de calcul tensoriel Metal 4.1 sur Apple M4 Max. Les chercheurs découvrent que l'opération matmul2d fp8 (E4M3) est émulée, non accélérée (0.94x le débit fp16), exécutée sur les shader cores GPU sans datapath matriciel dédié, et accumule en ≥fp32. Un kernel GEMM fusionné gagne +6.5-12.9% en régime cache-resident.

Lire la source

Ton avis ?

Benchmarks Infrastructure Génération de code

Résumé généré par Claude — vérifié par l'humain

Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU

Autres angles sur ce sujet