Retour au feed
arXiv cs.CL·

COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models

Signal
78
Hype
15
En 3 lignesCOFT est une méthode de décodage sans entraînement qui réduit les biais dans la génération de chaînes de pensée (CoT) des LLM. Elle utilise des prompts contrefactuels masqués et la fusion de logits pour atténuer les biais liés aux attributs sensibles, avec garanties de validité marginale sans distribution. Évaluation sur 6 modèles : réduction de 30-55% des biais (médiane 38%) sans perte d'utilité.
Lire la source
Ton avis ?
RaisonnementSécurité IAAlignementBenchmarks

Résumé généré par Claude — vérifié par l'humain