On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance
Signal
78
Hype
15
En 3 lignesÉtude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain