Retour au feed
arXiv cs.CL·

Skills on the Fly: Test-Time Adaptive Skill Synthesis for LLM Agents

Signal
72
Hype
25
En 3 lignesSkillTTA synthétise des compétences textuelles spécifiques à la tâche en récupérant des trajectoires d'entraînement pertinentes, sans mettre à jour les paramètres du modèle. Évalué sur SpreadsheetBench, ALFWorld et BigCodeBench : SpreadsheetBench passe de 0.397 à 0.505 en Pass@1, BigCodeBench de 0.517 à 0.651.
Lire la source
Ton avis ?
Agents IAPrompt engineeringRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain