HalluScore: Large Language Model Hallucination Question Answering Benchmark
Signal
72
Hype
18
En 3 lignesHalluScore est un benchmark arabe de 827 questions pour évaluer les hallucinations des LLMs. Analyse empirique de 17 modèles arabes et multilingues révélant que les hallucinations dépassent les inexactitudes factuelles : défis de compréhension culturelle, raisonnement linguistique et cohérence logique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain