arXiv cs.LG·20 mai 2026

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling

Signal

Hype

En 3 lignesÉtude de 63 modèles de base montrant une transition de phase cachée : sous ~3.5B paramètres, raisonnement et véracité s'anticorrèlent ; au-delà, ils coopèrent. Architecture, données et recette d'entraînement décalent indépendamment ce seuil critique. Normalisation de largeur élimine l'anticorrélation ; modèles frontière atteignent r=+0.72. Outil open-source et dashboard diagnostique publiés.

## Transition de phase alignment : ce que 63 modèles révèlent sur le mensonge à petite échelle

### 1. Le phénomène central

Les courbes de loss ne voient rien. C'est le point de départ de cette étude (arXiv:2605.18838) qui analyse 63 modèles de base issus de 16 familles et détecte un régime invisible aux métriques standard : en dessous d'un seuil critique N_c ≈ 3,5B paramètres (IC 95% bootstrap : [2,9B ; 13,4B]), raisonnement et véracité s'anticorrèlent. Autrement dit, un modèle qui raisonne mieux ment davantage — ou plus précisément, ses capacités de raisonnement et sa tendance à produire des assertions vraies évoluent en sens inverse. Au-delà de ce seuil, la relation s'inverse : les deux capacités coopèrent.

Cette anticorrélation n'est pas un artefact de benchmark. Les auteurs la reproduisent sur 38 des 40 modèles testés en interne, avec zéro tête d'attention concurrente détectée, ce qui pointe vers un goulot d'étranglement structurel au niveau de la projection de sortie (output-projection bottleneck). La normalisation de largeur (width normalization) élimine l'anticorrélation sur toutes les familles testées — intervention chirurgicale qui confirme l'hypothèse architecturale.

### 2. N_c n'est pas une constante — c'est une variable de conception

Le chiffre 3,5B est une médiane, pas une loi. L'étude démontre que trois leviers déplacent N_c indépendamment :

**Curation des données** : Phi à 1B paramètres atteint le couplage d'un modèle web-trained à 10B. Le ratio est 10:1 en faveur de la curation. Entre générations Qwen à échelle identique, la curation fait passer le couplage de 0,025 à 0,830 — soit une multiplication par 33.

**Architecture + distillation** : Gemma-4 à 4B atteint un couplage de 0,871, caractéristique des modèles standard entraînés à 13B+. Gemma-4 compresse donc ~3× l'échelle nécessaire pour sortir du régime anticorrélé.

**Recette d'entraînement** : effet indépendant des deux précédents, quantifié mais non détaillé dans l'abstract.

Ces trois leviers sont orthogonaux. Un praticien qui optimise uniquement la taille du modèle peut rester bloqué dans le régime anticorrélé bien au-delà de 3,5B si les données ou l'architecture ne suivent pas.

### 3. L'outil de diagnostic et ses implications opérationnelles

Le diagnostic ne nécessite aucun accès aux internals du modèle — uniquement des scores de benchmarks publics sur une famille de modèles. C'est un point critique : cela signifie que n'importe quelle équipe peut auditer sa propre famille de modèles sans infrastructure d'interprétabilité. Le dashboard (zehenlabs.com/cape/) fournit : - Diagnostic de phase de couplage - Suggestions d'interventions concrètes (curation, largeur, rotation de benchmarks) - Prédictions ODE de scaling (validées sur Llama-2 à 5,6% d'erreur) - Analyse d'eigenstructure - Diagnostics frontier (r = +0,72 sur 34 modèles, 10 labs)

L'ODE sparse-regression cross-prédit Llama-2 held-out à 5,6% d'erreur — ce niveau de précision sur une famille non vue est suffisant pour des décisions d'allocation de compute.

### 4. Perdants potentiels et angles morts

**Les équipes qui scalent sans curating** : si N_c peut être abaissé à ~1B par la curation (cas Phi), les organisations qui investissent massivement dans des runs de pré-entraînement à 3-7B sur des données web brutes opèrent potentiellement dans le régime anticorrélé sans le savoir. Leurs modèles raisonnent mieux mais deviennent moins fiables factuellement — exactement le profil qui produit des hallucinations confiantes.

**Les évaluateurs qui utilisent des benchmarks isolés** : l'étude suggère une rotation de benchmarks comme intervention. Les évaluations single-benchmark ne capturent pas le couplage inter-capacités. Un modèle peut scorer haut en raisonnement et bas en véracité sans que l'évaluation standard le signale comme problématique.

**Les hypothèses d'émergence par scaling pur** : la démonstration que Gemma-4 à 4B atteint le couplage de modèles à 13B+ invalide empiriquement l'idée que la coopération raisonnement/véracité est une propriété émergente liée à la taille absolue. C'est une propriété de conception, pas de scale.

**Limite méthodologique à noter** : le CI bootstrap [2,9B ; 13,4B] est large — presque un ordre de grandeur. N_c est une estimation utile mais pas une frontière précise. Les modèles dans la zone 3-13B sont dans une région d'incertitude réelle, et le diagnostic par famille reste nécessaire plutôt qu'une règle universelle de taille.

Lire la source

Ton avis ?

Benchmarks Alignement Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling

Autres angles sur ce sujet