arXiv cs.LG·1 juin 2026

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Signal

Hype

En 3 lignesUn nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.

## CSS : Quand le classement des LLMs cliniques s'inverse sous évaluation contrefactuelle

### 1. Ce qui est démontré

L'étude introduit le **Causal Sensitivity Score (CSS)**, une métrique interventionnelle pré-enregistrée qui teste si un modèle *met à jour* ses recommandations oncologiques quand les données patient changent — et non s'il *couvre* les bonnes options thérapeutiques. La distinction est fondamentale : un modèle peut citer les bons traitements pour un cancer de stade III tout en produisant exactement la même sortie pour un stade I. Le Consensus Match Score (CMS), métrique de rappel pondéré dominant dans les benchmarks cliniques actuels, ne détecte pas cette pathologie.

Protocole : 224 cas de tumor board oncologique, 6 modèles frontier issus de 3 labs, 5 types de mutations cliniques (flip de biomarqueur, échec de traitement antérieur, suppression de biomarqueur, changement de statut chirurgical, perturbation de stade), scoring à trois niveaux {0, 0.5, 1.0} selon la direction de mise à jour.

### 2. Le résultat central : inversion quasi-totale des rangs

Les 6 modèles changent tous de rang entre CMS et CSS. Le modèle le moins performant sur CMS devient le meilleur sur CSS. Un modèle dans le haut du classement CMS tombe en dernière position CSS. Ce n'est pas une légère réorganisation — c'est une inversion structurelle qui signifie que les critères de sélection actuels pour les LLMs cliniques optimisent activement la mauvaise propriété.

Avant cette publication, l'état de l'art en évaluation clinique reposait sur des métriques de couverture : est-ce que le modèle mentionne les options pertinentes ? Le CSS déplace la question vers : est-ce que le modèle *raisonne causalement* sur les données patient ? Ces deux questions ont des réponses orthogonales pour les modèles actuels.

### 3. L'angle mort universel : le statut chirurgical

Tous les modèles frontier échouent sur les interventions de statut chirurgical, avec un CSS maximal de **17,2%** sur la famille de cas D. Ce chiffre est particulièrement alarmant en contexte clinique : l'éligibilité chirurgicale est l'un des pivots décisionnels les plus structurants en oncologie — elle conditionne l'intention curative vs. palliative, les séquences de chimiothérapie néoadjuvante, et les discussions de tumor board. Un modèle qui ignore ce signal ne fait pas d'erreur marginale ; il opère dans un espace de raisonnement déconnecté de la réalité clinique.

Le CMS ne détecte pas ce défaut parce qu'un modèle peut mentionner chirurgie, chimiothérapie et radiothérapie dans sa sortie indépendamment du statut chirurgical du patient — la couverture est assurée, la sensibilité causale est nulle.

### 4. Transfert aux agents ReAct et implications pour le RL

L'expérience agent est instructive : l'accès aux outils améliore le CSS pour 5 modèles sur 6 (+2,5 à +20,3 points de pourcentage). Mais le modèle avec le CSS le plus bas récupère les mêmes sections de dossier et produit les mêmes recommandations — l'outillage ne corrige pas un déficit de réactivité structurelle. Ce résultat isole la cause : ce n'est pas un problème d'accès à l'information, c'est un problème d'intégration causale.

Les auteurs proposent le CSS comme signal de récompense dense pour les systèmes RL agentiques futurs. C'est la contribution la plus prospective du papier : si les modèles sont entraînés sur des métriques de couverture, ils optimisent la couverture. Un signal CSS dans la boucle d'entraînement forcerait l'apprentissage de la sensibilité aux perturbations cliniques.

### Qui perd dans ce nouveau cadre

Les **fournisseurs de benchmarks cliniques** basés sur CMS ou métriques équivalentes voient leur infrastructure d'évaluation partiellement invalidée. Les **équipes produit** ayant sélectionné des modèles sur la base de scores CMS élevés pourraient avoir déployé précisément les modèles les moins réactifs aux changements cliniques. Les **labs** dont les modèles performent bien sur CMS mais mal sur CSS font face à une question de positionnement : leurs modèles sont-ils adaptés aux environnements cliniques dynamiques où les cas évoluent entre les consultations ?

La validation par trois évaluateurs médicaux professionnels et la réplication multi-juge renforcent la robustesse des conclusions. Le pré-enregistrement de la métrique est une décision méthodologique importante qui protège contre le p-hacking dans un domaine où les enjeux de déploiement sont élevés.

Lire la source

Ton avis ?

Benchmarks Évaluations Agents IA Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Autres angles sur ce sujet