arXiv cs.LG·29 mai 2026

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Signal

Hype

En 3 lignesÉtude sur l'échec de la conception de récompenses par LLM en RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement itératif guidé par diagnostics. Sur MiniGrid, DoorKey-8x8 passe de 2,3% à 97,6% de succès; KeyCorridor de 31,2% à 86,7%. La taxonomie des défaillances est le mécanisme principal.

Lire la source

Ton avis ?

Reinforcement learning Llama Prompt engineering Évaluations

Résumé généré par Claude — vérifié par l'humain

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Autres angles sur ce sujet