Retour au feed
arXiv cs.CL·

Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

Signal
78
Hype
15
En 3 lignesÉtude de 16 modèles de langage (1.5B–72B paramètres) révélant que leur convergence représentationnelle ne s'étend pas au raisonnement. Les modèles s'alignent davantage sur les problèmes qu'ils échouent collectivement (CKA=0.897) que sur ceux résolus (CKA=0.830). Les représentations post-décision divergent fortement (CKA=0.274), et l'information partagée exerce une influence causale minimale (1.5–5.5% flip rate).
Lire la source
Ton avis ?
PapersRaisonnementÉvaluationsAlignement

Résumé généré par Claude — vérifié par l'humain