arXiv cs.AI·19 mai 2026

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

Signal

Hype

En 3 lignesHINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces segments. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Lire la source

Ton avis ?

Agents IA Reinforcement learning Raisonnement

Résumé généré par Claude — vérifié par l'humain

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

Autres angles sur ce sujet