PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage
Signal
78
Hype
15
En 3 lignesPSEBench est un benchmark de 5 074 cas pour évaluer les LLM sur le triage des événements de sécurité des patients selon les politiques de Minnesota. La méthodologie utilise des « clause cards » pour factoriser les textes réglementaires en spécifications de décision auditables, avec vérification en boucle fermée. Évaluation de 15 LLM représentatifs révèle des tendances de capacité et des lacunes pour le triage fiable.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain