QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning
Signal
72
Hype
25
En 3 lignesQuantFPFlow intègre l'estimation d'amplitude quantique (Grover) dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Speedup quadratique théorique O(1/ε) vs O(1/ε²) classique. Sur tâche continue multimodale, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain