arXiv cs.CL·26 mai 2026

Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation

Signal

Hype

En 3 lignesMéthode pour améliorer la cohérence des étiquetages automatisés en modération de contenu. Les auteurs proposent un workflow où une IA rédige des « constitutions » détaillées par catégorie (harcèlement, discours haineux, crime non-violent), puis un LLM frontier les interprète pour générer les étiquettes. Résultat : réduction de l'incohérence cross-modèle jusqu'à 57x vs définitions paragraphes.

Lire la source

Ton avis ?

Évaluations Sécurité IA Alignement Prompt engineering

Résumé généré par Claude — vérifié par l'humain

Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation

Autres angles sur ce sujet