Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding
Signal
78
Hype
15
En 3 lignesRegret Pre-training introduit un cadre d'apprentissage auto-supervisé basé sur LUPI, utilisant une architecture dual-view pour générer distributions Student (causale) et Teacher (future-conditionnée). Sur OLMoE-1B-7B après 4B tokens, GlobalRegret et LocalRegret atteignent 33.9% et 32.2% de précision moyenne vs 30.2% baseline, avec gain de 18.1pp sur BoolQ. Zéro paramètre supplémentaire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain