Retour au feed
arXiv cs.CL·

From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale

Signal
78
Hype
25
En 3 lignesÉtude de 17 modèles (410M-100B+ paramètres) montrant que l'instruction-tuning provoque un effondrement de l'entropie linguistique (amplification: 1,949-16,853%), indépendamment de RLHF. Un contrôle fort (lambda=5.0) réduit cet effet de 40.5% et surpasse les modèles frontier de 96.7-98.2% malgré une désavantage d'échelle 200-1000x.
Lire la source
Ton avis ?
PapersAlignementFine-tuningÉvaluations

Résumé généré par Claude — vérifié par l'humain