QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning
Signal
72
Hype
28
En 3 lignesQuantFPFlow intègre l'estimation quantique d'amplitude dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Grover-amplified atteint une accélération quadratique O(1/ε) vs O(1/ε²) classique. Sur tâches continues, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain