arXiv cs.AI·26 mai 2026

LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

Signal

Hype

En 3 lignesLC-ERD est un framework d'auto-alignement pour LLM qui mine les structures logiques latentes via décomposition de récompenses régulées. Il résout trois défis : le bruit d'étiquetage par biais mimétique, la supervision grossière et l'effondrement distributionnel. Utilise un Potentiel Logique Variationnel et décomposition multi-agent basée sur le principe IGM.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Alignement Papers

Résumé généré par Claude — vérifié par l'humain

LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

Autres angles sur ce sujet