arXiv cs.CL·3 juin 2026

Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

Signal

Hype

En 3 lignesRegret Pre-training introduit un cadre d'apprentissage auto-supervisé basé sur LUPI, utilisant une architecture dual-view pour générer distributions Student (causale) et Teacher (future-conditionnée). Sur OLMoE-1B-7B après 4B tokens, GlobalRegret et LocalRegret atteignent 33.9% et 32.2% de précision moyenne vs 30.2% baseline, avec gain de 18.1pp sur BoolQ. Zéro paramètre supplémentaire.

Lire la source

Ton avis ?

Papers Raisonnement Fine-tuning

Résumé généré par Claude — vérifié par l'humain

Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

Autres angles sur ce sujet