When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering
Signal
78
Hype
25
En 3 lignesOGCaReBench est un benchmark de retrieval pour évaluer les LLMs sur des questions cliniques hors-guideline, extraites de cas médicaux publiés. GPT-5.2 atteint 56% sans retrieval, 82% avec articles médicaux récupérés. Les modèles spécialisés plafonnent à 42%.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain