AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents
Signal
78
Hype
15
En 3 lignesAgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur configurations inédites. Cursor Agent, Claude Code et Codex Agent atteignent des speedups jusqu'à 6.89x, mais les optimisations PyTorch-to-HIP montrent des chutes de correction sur configurations non vues.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain