Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models
Signal
72
Hype
18
En 3 lignesDeux métriques automatisées évaluent le désalignement lexical des LLM : Lexical Alignment Score détecte la surutilisation de termes ('suggest', 'additionally', 'strategy'), Triangulated Preference Shift quantifie l'impact du RLHF. Testées sur 6 familles (Falcon, Gemma, Llama, Mistral, OLMo, Yi) via abstracts PubMed, sans annotation manuelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain