LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition
Signal
72
Hype
28
En 3 lignesLC-ERD est un framework d'auto-alignement pour LLM qui mine les structures logiques latentes via décomposition de récompenses régulées. Il résout trois défis : le bruit d'étiquetage par biais mimétique, la supervision grossière et l'effondrement distributionnel. Utilise un Potentiel Logique Variationnel et décomposition multi-agent basée sur le principe IGM.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain