Retour au feed
arXiv cs.AI·

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

Signal
78
Hype
15
En 3 lignesAgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur configurations inédites. Cursor Agent, Claude Code et Codex Agent atteignent des speedups jusqu'à 6.89x, mais les optimisations PyTorch-to-HIP montrent des chutes de correction sur configurations non vues.
Lire la source
Ton avis ?
Agents IAGénération de codeBenchmarksClaude Code

Résumé généré par Claude — vérifié par l'humain