Retour au feed
arXiv cs.AI·

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Signal
75
Hype
15
En 3 lignesÉtude sur l'auto-évolution des harnesses (prompts, skills, mémoires, outils) dans les agents LLM. Analyse deux capacités : harness-updating (produire des mises à jour utiles) et harness-benefit (en bénéficier). Résultats : harness-updating est indépendant de la capacité de base (Qwen3.5-9B rivalise avec Claude Opus), tandis que harness-benefit suit une courbe non-monotone (modèles mid-tier bénéficient le plus).
Lire la source
Ton avis ?
Agents IAPrompt engineeringBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain