arXiv cs.CL·22 mai 2026

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Signal

Hype

En 3 lignesOGCaReBench est un benchmark de retrieval pour évaluer les LLMs sur des questions cliniques hors-guideline, extraites de cas médicaux publiés. GPT-5.2 atteint 56% sans retrieval, 82% avec articles médicaux récupérés. Les modèles spécialisés plafonnent à 42%.

Lire la source

Ton avis ?

Benchmarks RAG Raisonnement GPT

Résumé généré par Claude — vérifié par l'humain

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Autres angles sur ce sujet