Retour au feed
Reddit r/MachineLearning·

How much of MLE-Bench's gains are the algorithm vs. better models + more search? [R]

Signal
72
Hype
25
En 3 lignesMLE-Bench affiche 80% de gains en deux ans, mais une nouvelle étude (FML-Bench) révèle que peu provient du progrès algorithmique réel. À budget de steps égal et modèles identiques, l'algorithme AIDE de deux ans égale les systèmes modernes de recherche agent/évolutionnaire. FML-Bench unifie l'agent d'édition de code, la définition des steps et les splits val/test pour évaluer l'efficacité algorithmique.
Lire la source
Ton avis ?
BenchmarksAgents IAÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain