arXiv cs.AI·19 mai 2026

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Signal

Hype

En 3 lignesNouvelle métrique appelée Refusal Index (RI) pour mesurer la capacité des LLM à refuser les questions hors de leur connaissance. RI corrèle la probabilité de refus avec la probabilité d'erreur via la corrélation de Spearman. Tests sur 16 modèles et 5 datasets montrent que le comportement de refus des LLM reste fragile malgré une haute précision factuelle.

Lire la source

Ton avis ?

Évaluations Sécurité IA Alignement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Autres angles sur ce sujet