arXiv cs.LG·19 mai 2026

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

Signal

Hype

En 3 lignesQuantFPFlow intègre l'estimation quantique d'amplitude dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Grover-amplified atteint une accélération quadratique O(1/ε) vs O(1/ε²) classique. Sur tâches continues, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

Autres angles sur ce sujet