Retour au feed
arXiv cs.CL·

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Signal
78
Hype
25
En 3 lignesOGCaReBench est un benchmark de retrieval pour évaluer les LLMs sur des questions cliniques hors-guideline, extraites de cas médicaux publiés. GPT-5.2 atteint 56% sans retrieval, 82% avec articles médicaux récupérés. Les modèles spécialisés plafonnent à 42%.
Lire la source
Ton avis ?
BenchmarksRAGRaisonnementGPT

Résumé généré par Claude — vérifié par l'humain