Retrieval, Reward, and Training Protocols: What Matters in Training Search Agents?
Signal
78
Hype
15
En 3 lignesÉtude empirique contrôlée sur l'entraînement d'agents de recherche LLM. Les auteurs isolent trois dimensions : (1) un problème de couverture de données dans Wikipedia 2018 qui explique plus de gains que les différences algorithmiques, (2) les récompenses outcome-based surpassent les approches process-based, (3) analyse de la diversité des données et du budget de recherche. Code disponible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain