Retour au feed
arXiv cs.AI·

Skill-Augmented AI Agents for Medical Research Analysis: An Exploratory Multi-Model Human Evaluation in an NSCLC Transcriptomic Biomarker Task

Signal
45
Hype
25
En 3 lignesÉtude exploratoire comparant des agents IA avec accès à des compétences médicales versus modèles natifs sur une tâche d'analyse transcriptomique (cancer pulmonaire non-à-petites cellules). Six backbones testés, 21 outputs évalués par experts et non-experts. Les outputs augmentés montrent une qualité supérieure directionnelle (5.50 vs 5.11) mais non significative (p=0.156). Accord expert limité (ICC=-0.15).
Lire la source
Ton avis ?
Agents IABenchmarksÉvaluationsSécurité IA

Résumé généré par Claude — vérifié par l'humain