Retour au feed
arXiv cs.AI·

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

Signal
72
Hype
25
En 3 lignesQuantFPFlow intègre l'estimation d'amplitude quantique (Grover) dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Speedup quadratique théorique O(1/ε) vs O(1/ε²) classique. Sur tâche continue multimodale, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain