arXiv cs.AI·19 mai 2026

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Signal

Hype

En 3 lignesLes chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement intégrant cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Autres angles sur ce sujet