arXiv cs.LG·21 mai 2026

Introspective X Training: Feedback Conditioning Improves Scaling Across all LLM Training Stages

Signal

Hype

En 3 lignesIntrospective Training (IXT) utilise un modèle de récompense pour annoter les données avec du feedback en langage naturel dès le pré-entraînement. Sur des LLM 7.5-12B entraînés jusqu'à 18T tokens, la méthode améliore l'efficacité computationnelle de 2.8x et atteint des performances inarrivables en mathématiques et code.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

Introspective X Training: Feedback Conditioning Improves Scaling Across all LLM Training Stages

Autres angles sur ce sujet