Retour au feed
arXiv cs.CL·

PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts

Signal
82
Hype
15
En 3 lignesPARALLAX révèle que 4 des 6 benchmarks majeurs de détection d'hallucinations contiennent la réponse correcte dans le prompt, permettant à une baseline naïve (TxTemb) d'atteindre une détection quasi-parfaite sans accès aux états internes du modèle. Évaluation de 22 méthodes sur 12 modèles open-source : la plupart échouent en conditions contrôlées, sauf SAPLMA et DRIFT (probes supervisées sur états cachés supérieurs).
Lire la source
Ton avis ?
BenchmarksÉvaluationsSécurité IAPapers

Résumé généré par Claude — vérifié par l'humain