PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts
Signal
82
Hype
15
En 3 lignesPARALLAX révèle que 4 des 6 benchmarks majeurs de détection d'hallucinations contiennent la réponse correcte dans le prompt, permettant à une baseline naïve (TxTemb) d'atteindre une détection quasi-parfaite sans accès aux états internes du modèle. Évaluation de 22 méthodes sur 12 modèles open-source : la plupart échouent en conditions contrôlées, sauf SAPLMA et DRIFT (probes supervisées sur états cachés supérieurs).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain