arXiv cs.CL·25 mai 2026

Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

Signal

Hype

En 3 lignesÉtude de 16 modèles de langage (1.5B–72B paramètres) révélant que leur convergence représentationnelle ne s'étend pas au raisonnement. Les modèles s'alignent davantage sur les problèmes qu'ils échouent collectivement (CKA=0.897) que sur ceux résolus (CKA=0.830). Les représentations post-décision divergent fortement (CKA=0.274), et l'information partagée exerce une influence causale minimale (1.5–5.5% flip rate).

Lire la source

Ton avis ?

Papers Raisonnement Évaluations Alignement

Résumé généré par Claude — vérifié par l'humain

Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

Autres angles sur ce sujet