Retour au feed
arXiv cs.AI·

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Signal
78
Hype
15
En 3 lignesLes chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement intégrant cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.
Lire la source
Ton avis ?
RaisonnementReinforcement learningBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain