Retour au feed
arXiv cs.AI·

LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

Signal
72
Hype
28
En 3 lignesLC-ERD est un framework d'auto-alignement pour LLM qui mine les structures logiques latentes via décomposition de récompenses régulées. Il résout trois défis : le bruit d'étiquetage par biais mimétique, la supervision grossière et l'effondrement distributionnel. Utilise un Potentiel Logique Variationnel et décomposition multi-agent basée sur le principe IGM.
Lire la source
Ton avis ?
RaisonnementReinforcement learningAlignementPapers

Résumé généré par Claude — vérifié par l'humain