arXiv cs.AI·4 June 2026

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

Signal

Hype

In three linesBiasGRPO introduces Group Relative Policy Optimization (GRPO) to mitigate social bias in LLMs. By normalizing rewards across sampled completions, the method stabilizes training compared to DPO and PPO. Authors release a compute-efficient bias reward model and extended dataset for multi-objective RLHF.

Read source

Your take?

Reinforcement learning Alignment AI safety Benchmarks

Summary generated by Claude — human-verified

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

Other angles on this story