arXiv cs.CL·19 mai 2026

HalluScore: Large Language Model Hallucination Question Answering Benchmark

Signal

Hype

En 3 lignesHalluScore est un benchmark arabe de 827 questions pour évaluer les hallucinations des LLMs. Analyse empirique de 17 modèles arabes et multilingues révélant que les hallucinations dépassent les inexactitudes factuelles : défis de compréhension culturelle, raisonnement linguistique et cohérence logique.

Lire la source

Ton avis ?

Benchmarks Évaluations Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

HalluScore: Large Language Model Hallucination Question Answering Benchmark

Autres angles sur ce sujet