arXiv cs.CL·28 mai 2026

Retrieval, Reward, and Training Protocols: What Matters in Training Search Agents?

Signal

Hype

En 3 lignesÉtude empirique contrôlée sur l'entraînement d'agents de recherche LLM. Les auteurs isolent trois dimensions : (1) un problème de couverture de données dans Wikipedia 2018 qui explique plus de gains que les différences algorithmiques, (2) les récompenses outcome-based surpassent les approches process-based, (3) analyse de la diversité des données et du budget de recherche. Code disponible.

Lire la source

Ton avis ?

Agents IA RAG Reinforcement learning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Retrieval, Reward, and Training Protocols: What Matters in Training Search Agents?

Autres angles sur ce sujet