PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization
Signal
75
Hype
15
En 3 lignesPAIR est un modèle de récompense interne pour optimiser l'entraînement multi-étapes des LLM via GRPO. Il combine une sonde d'état caché (cohérence des croyances) et une tête attention légère pour générer des signaux de récompense denses à chaque étape, sans appels externes ni dépendances aux réponses correctes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain