arXiv cs.CL·21 mai 2026

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Signal

Hype

En 3 lignesMedicalBench est un benchmark pour l'extraction de concepts médicaux implicites à partir de dossiers médicaux (MIMIC-IV). Il formule la tâche comme vérification de paires note-concept avec identification d'évidences au niveau phrase. Les LLM actuels obtiennent des performances modestes, révélant la difficulté du raisonnement médical implicite.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Autres angles sur ce sujet