Retour au feed
arXiv cs.LG·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Signal
72
Hype
18
En 3 lignesÉtude sur l'échec de la conception de récompenses par LLM en RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement itératif guidé par diagnostics. Sur MiniGrid, DoorKey-8x8 passe de 2,3% à 97,6% de succès; KeyCorridor de 31,2% à 86,7%. La taxonomie des défaillances est le mécanisme principal.
Lire la source
Ton avis ?
Reinforcement learningLlamaPrompt engineeringÉvaluations

Résumé généré par Claude — vérifié par l'humain