Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation
Signal
75
Hype
15
En 3 lignesMéthode pour améliorer la cohérence des étiquetages automatisés en modération de contenu. Les auteurs proposent un workflow où une IA rédige des « constitutions » détaillées par catégorie (harcèlement, discours haineux, crime non-violent), puis un LLM frontier les interprète pour générer les étiquettes. Résultat : réduction de l'incohérence cross-modèle jusqu'à 57x vs définitions paragraphes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain