arXiv cs.CL·29 mai 2026

From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale

Signal

Hype

En 3 lignesÉtude de 17 modèles (410M-100B+ paramètres) montrant que l'instruction-tuning provoque un effondrement de l'entropie linguistique (amplification: 1,949-16,853%), indépendamment de RLHF. Un contrôle fort (lambda=5.0) réduit cet effet de 40.5% et surpasse les modèles frontier de 96.7-98.2% malgré une désavantage d'échelle 200-1000x.

Lire la source

Ton avis ?

Papers Alignement Fine-tuning Évaluations

Résumé généré par Claude — vérifié par l'humain

From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale

Autres angles sur ce sujet