arXiv cs.LG·27 mai 2026

Online Learning on Hidden-Convex Losses via Algorithmic Equivalence: Optimal Regret, Geometric Barrier, and Bandit Feedback

Signal

Hype

En 3 lignesÉtude de l'apprentissage en ligne adversarial sur pertes cachées-convexes (nonconvexes devenant convexes après reparamétrisation). Les auteurs prouvent que la descente de gradient en ligne (OGD) atteint un regret optimal Θ(√T), améliorant le résultat O(T^2/3) antérieur. Ils caractérisent la condition de compatibilité Hessienne nécessaire-suffisante et étendent l'analyse au feedback bandit avec regret O(T^3/4).

Lire la source

Ton avis ?

Papers Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Online Learning on Hidden-Convex Losses via Algorithmic Equivalence: Optimal Regret, Geometric Barrier, and Bandit Feedback

Autres angles sur ce sujet