BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization
BiasGRPO propose une méthode d'optimisation de politique (GRPO) pour atténuer les biais sociaux dans les LLM. En normalisant les récompenses sur un groupe de complétions, l'approche stabilise l'entraînement par rapport à DPO et PPO. Les auteurs publient un modèle de récompense de biais optimisé et un dataset étendu.