CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law
Signal
78
Hype
15
En 3 lignesCanLegalRAGBench est un benchmark d'évaluation pour systèmes RAG appliqués au droit canadien, basé sur des requêtes réalistes et des réponses annotées par des experts. L'étude révèle que les modèles d'embedding open-source rivalisent avec les modèles fermés, mais identifie des hallucinations dans 8-29% des réponses générées, non supportées par les documents récupérés.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain