Retour au feed
arXiv cs.CL·

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

Signal
78
Hype
15
En 3 lignesAgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur des configurations inédites. Les agents testés (Cursor Agent, Claude Code, Codex) atteignent des speedups jusqu'à 6.89x, mais montrent des faiblesses en généralisation pour PyTorch-to-HIP.
Lire la source
Ton avis ?
Agents IAGénération de codeBenchmarksClaude Code

Résumé généré par Claude — vérifié par l'humain