arXiv cs.AI·19 mai 2026

FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics

Signal

Hype

En 3 lignesFML-Bench est un benchmark de 18 tâches ML sur 10 domaines évaluant 6 agents de recherche IA. Résultats clés : la complexité stratégique seule ne garantit pas la performance (greedy hill-climber rivalise avec tree-search) ; l'efficacité dépend de la structure d'opportunités d'amélioration ; un agent adaptatif détectant la stagnation surpasse les autres. 12 métriques comportementales au niveau processus.

Lire la source

Ton avis ?

Agents IA Benchmarks Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics

Autres angles sur ce sujet