Introspective X Training: Feedback Conditioning Improves Scaling Across all LLM Training Stages
Signal
82
Hype
25
En 3 lignesIntrospective Training (IXT) utilise un modèle de récompense pour annoter les données avec du feedback en langage naturel dès le pré-entraînement. Sur des LLM 7.5-12B entraînés jusqu'à 18T tokens, la méthode améliore l'efficacité computationnelle de 2.8x et atteint des performances inarrivables en mathématiques et code.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain