Retour au feed
arXiv cs.CL·

Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation

Signal
75
Hype
15
En 3 lignesMéthode pour améliorer la cohérence des étiquetages automatisés en modération de contenu. Les auteurs proposent un workflow où une IA rédige des « constitutions » détaillées par catégorie (harcèlement, discours haineux, crime non-violent), puis un LLM frontier les interprète pour générer les étiquettes. Résultat : réduction de l'incohérence cross-modèle jusqu'à 57x vs définitions paragraphes.
Lire la source
Ton avis ?
ÉvaluationsSécurité IAAlignementPrompt engineering

Résumé généré par Claude — vérifié par l'humain