Retour au feed
arXiv cs.CL·

MechELK: A Mechanistic Interpretability Framework for Eliciting Latent Knowledge in Large Language Models

Signal
82
Hype
25
En 3 lignesMechELK est un framework d'interprétabilité méchaniste pour extraire les connaissances latentes des LLM. En trois étapes (localisation via SAE, vérification par probing causal, élicitation par ingénierie de représentation), il atteint 84,7% de précision sur TruthfulQA, surpassant CCS de 6,2% et détecte 78,3% des connaissances cachées quand la sortie du modèle est incorrecte.

## MechELK : extraire ce que le modèle sait mais ne dit pas

### 1. Le problème concret

Les LLM produisent régulièrement des sorties incorrectes ou évasives tout en encodant la bonne réponse dans leurs représentations internes. Ce décalage entre connaissance interne et output de surface — la « latent knowledge » — est documenté depuis les travaux de Burns et al. (2022) sur CCS (Contrastive Consistency Search). Le problème de CCS : il repose sur des patterns d'activation contrastifs qui tiennent bien sur des questions factuelles simples mais s'effondrent sur le raisonnement multi-étapes. MechELK attaque précisément cette limite.

### 2. L'architecture en trois étapes

**Locate** : MechELK commence par une analyse de features via Sparse Autoencoder (SAE). Les SAE, popularisés par Anthropic pour la cartographie de concepts dans les réseaux de neurones, permettent de décomposer les activations en features interprétables. Couplés à l'activation patching (technique qui consiste à substituer chirurgicalement des activations entre runs pour identifier les couches causalement responsables d'un comportement), ils produisent une carte des représentations porteuses de connaissance.

**Verify** : Le probing causal distingue la connaissance latente réelle des corrélations spurieuses. C'est l'étape critique que CCS ne possède pas : sans vérification causale, un probe peut capturer un artefact de distribution plutôt qu'une représentation sémantique stable. Cette étape filtre les faux positifs.

**Elicit** : La representation engineering (Zou et al., 2023) surface la connaissance cachée sans modifier les poids du modèle. Contrairement au fine-tuning ou au steering via activation addition brute, cette approche est non-destructive et applicable en inférence.

### 3. Les chiffres qui comptent

- **84,7% de précision moyenne** sur TruthfulQA + benchmark Deceptive Alignment + dataset Quirky LM - **+6,2% vs CCS** (soit ~78,5% pour CCS sur ces benchmarks) - **+9,1% vs direct linear probing** (soit ~75,6% pour le probing linéaire direct) - **78,3% de détection** dans les cas où l'output de surface est incorrect ou évasif

Ce dernier chiffre est le plus opérationnellement significatif : il quantifie la capacité à récupérer de la connaissance correcte précisément quand le modèle « ment » ou esquive. Pour les applications de sécurité, c'est le cas d'usage central.

### 4. Implications pour la sécurité et les perdants potentiels

**Deceptive alignment** : Le benchmark dédié testé dans le papier cible le scénario où un modèle adopte un comportement aligné en évaluation mais encode des représentations divergentes. MechELK détecte ces divergences avec 78,3% de rappel. Ce n'est pas suffisant pour un déploiement en production comme outil de certification de sécurité, mais c'est un signal exploitable pour le red-teaming.

**Ce que ça change par rapport à l'état antérieur** : Avant MechELK, les outils d'interprétabilité méchaniste (circuits, SAE, activation patching) étaient utilisés pour *comprendre* le comportement des modèles, pas pour *extraire* activement de la connaissance cachée. CCS était la référence pour l'élicitation, mais sans ancrage méchaniste. MechELK est le premier framework à unifier les deux branches.

**Perdants potentiels** : - Les approches purement comportementalistes d'évaluation de la sécurité (red-teaming par prompts uniquement) perdent du terrain face à des méthodes qui regardent à l'intérieur du modèle - CCS comme baseline de référence est directement challengé : -6,2% sur les mêmes benchmarks est une marge significative - Les arguments selon lesquels les LLM « ne savent pas ce qu'ils disent » deviennent plus difficiles à tenir : si 78,3% des erreurs de surface cachent une connaissance correcte, la question de la responsabilité des outputs se pose différemment

**Limites à noter** : Le papier est un preprint (arXiv:2605.28825v1), non encore peer-reviewed. Les benchmarks utilisés — TruthfulQA, Quirky LM — ont des biais connus. La généralisation à des modèles de très grande taille (>70B) et à des architectures non-transformer n'est pas démontrée. La dépendance aux SAE introduit un coût computationnel non négligeable à l'inférence. Enfin, 78,3% de détection signifie aussi 21,7% de cas où la connaissance latente correcte n'est pas récupérée — marge non triviale pour des applications critiques.

Lire la source
Ton avis ?
RaisonnementSécurité IAAlignementPapers

Résumé généré par Claude — vérifié par l'humain