arXiv cs.CL·2 juin 2026

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Signal

Hype

En 3 lignesÉtude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.

Lire la source

Ton avis ?

Prompt engineering Évaluations Benchmarks Alignement

Résumé généré par Claude — vérifié par l'humain

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Autres angles sur ce sujet