arXiv cs.CL·19 mai 2026

PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts

Signal

Hype

En 3 lignesPARALLAX révèle que 4 des 6 benchmarks majeurs de détection d'hallucinations contiennent la réponse correcte dans le prompt, permettant à une baseline naïve (TxTemb) d'atteindre une détection quasi-parfaite sans accès aux états internes du modèle. Évaluation de 22 méthodes sur 12 modèles open-source : la plupart échouent en conditions contrôlées, sauf SAPLMA et DRIFT (probes supervisées sur états cachés supérieurs).

Lire la source

Ton avis ?

Benchmarks Évaluations Sécurité IA Papers

Résumé généré par Claude — vérifié par l'humain

PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts

Autres angles sur ce sujet