Retour au feed
arXiv cs.CL·

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Signal
75
Hype
15
En 3 lignesMedicalBench est un benchmark pour l'extraction de concepts médicaux implicites à partir de dossiers médicaux (MIMIC-IV). Il formule la tâche comme vérification de paires note-concept avec identification d'évidences au niveau phrase. Les LLM actuels obtiennent des performances modestes, révélant la difficulté du raisonnement médical implicite.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain