Retour au feed
arXiv cs.CL·

HalluScore: Large Language Model Hallucination Question Answering Benchmark

Signal
72
Hype
18
En 3 lignesHalluScore est un benchmark arabe de 827 questions pour évaluer les hallucinations des LLMs. Analyse empirique de 17 modèles arabes et multilingues révélant que les hallucinations dépassent les inexactitudes factuelles : défis de compréhension culturelle, raisonnement linguistique et cohérence logique.
Lire la source
Ton avis ?
BenchmarksÉvaluationsSécurité IAAlignement

Résumé généré par Claude — vérifié par l'humain