MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Signal
75
Hype
25
En 3 lignesOpenAI présente MLE-bench, un benchmark pour évaluer les performances des agents IA sur des tâches d'ingénierie machine learning. Cet outil mesure la capacité des agents à accomplir des travaux ML complexes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain