FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics
Signal
82
Hype
15
En 3 lignesFML-Bench est un benchmark de 18 tâches ML sur 10 domaines évaluant 6 agents de recherche IA. Résultats clés : la complexité stratégique seule ne garantit pas la performance (greedy hill-climber rivalise avec tree-search) ; l'efficacité dépend de la structure d'opportunités d'amélioration ; un agent adaptatif détectant la stagnation surpasse les autres. 12 métriques comportementales au niveau processus.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain