Equivalence between policy gradients and soft Q-learning
OpenAI démontre l'équivalence mathématique entre les méthodes de policy gradients et le soft Q-learning en apprentissage par renforcement. Cette découverte théorique unifie deux approches majeures de l'RL et ouvre des perspectives pour combiner leurs avantages respectifs.