arXiv cs.CL·19 mai 2026

The Unlearnability Phenomenon in RLVR for Language Models

Signal

Hype

En 3 lignesÉtude révélant un phénomène d'« inapprenabilité » dans l'apprentissage par renforcement avec récompense vérifiable (RLVR) pour LLM. Certains exemples difficiles restent non-apprenables même avec des trajectoires correctes. L'analyse montre des défauts de représentation fondamentaux : faible similarité de gradient et patterns de raisonnement non-généralisables. L'augmentation de données ne résout pas le problème.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

The Unlearnability Phenomenon in RLVR for Language Models

Autres angles sur ce sujet