Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
Signal
75
Hype
15
En 3 lignesÉtude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain