arXiv cs.AI·19 mai 2026

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

Signal

Hype

En 3 lignesQuantFPFlow intègre l'estimation d'amplitude quantique (Grover) dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Speedup quadratique théorique O(1/ε) vs O(1/ε²) classique. Sur tâche continue multimodale, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

Autres angles sur ce sujet