arXiv cs.CL·1 juin 2026

COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models

Signal

Hype

En 3 lignesCOFT est une méthode de décodage sans entraînement qui réduit les biais dans la génération de chaînes de pensée (CoT) des LLM. Elle utilise des prompts contrefactuels masqués et la fusion de logits pour atténuer les biais liés aux attributs sensibles, avec garanties de validité marginale sans distribution. Évaluation sur 6 modèles : réduction de 30-55% des biais (médiane 38%) sans perte d'utilité.

Lire la source

Ton avis ?

Raisonnement Sécurité IA Alignement Benchmarks

Résumé généré par Claude — vérifié par l'humain

COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models

Autres angles sur ce sujet