arXiv cs.AI·11 juin 2026

Skill-Augmented AI Agents for Medical Research Analysis: An Exploratory Multi-Model Human Evaluation in an NSCLC Transcriptomic Biomarker Task

Signal

Hype

En 3 lignesÉtude exploratoire comparant des agents IA avec accès à des compétences médicales versus modèles natifs sur une tâche d'analyse transcriptomique (cancer pulmonaire non-à-petites cellules). Six backbones testés, 21 outputs évalués par experts et non-experts. Les outputs augmentés montrent une qualité supérieure directionnelle (5.50 vs 5.11) mais non significative (p=0.156). Accord expert limité (ICC=-0.15).

Lire la source

Ton avis ?

Agents IA Benchmarks Évaluations Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Skill-Augmented AI Agents for Medical Research Analysis: An Exploratory Multi-Model Human Evaluation in an NSCLC Transcriptomic Biomarker Task

Autres angles sur ce sujet