arXiv cs.AI·19 mai 2026

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

Signal

Hype

En 3 lignesAgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur configurations inédites. Cursor Agent, Claude Code et Codex Agent atteignent des speedups jusqu'à 6.89x, mais les optimisations PyTorch-to-HIP montrent des chutes de correction sur configurations non vues.

Lire la source

Ton avis ?

Agents IA Génération de code Benchmarks Claude Code

Résumé généré par Claude — vérifié par l'humain

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

Autres angles sur ce sujet