arXiv cs.CL·3 juin 2026

Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models

Signal

Hype

En 3 lignesDeux métriques automatisées évaluent le désalignement lexical des LLM : Lexical Alignment Score détecte la surutilisation de termes ('suggest', 'additionally', 'strategy'), Triangulated Preference Shift quantifie l'impact du RLHF. Testées sur 6 familles (Falcon, Gemma, Llama, Mistral, OLMo, Yi) via abstracts PubMed, sans annotation manuelle.

Lire la source

Ton avis ?

Alignement Évaluations Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models

Autres angles sur ce sujet