AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents
Signal
78
Hype
15
En 3 lignesAgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur des configurations inédites. Les agents testés (Cursor Agent, Claude Code, Codex) atteignent des speedups jusqu'à 6.89x, mais montrent des faiblesses en généralisation pour PyTorch-to-HIP.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain