Online Learning on Hidden-Convex Losses via Algorithmic Equivalence: Optimal Regret, Geometric Barrier, and Bandit Feedback
Signal
78
Hype
08
En 3 lignesÉtude de l'apprentissage en ligne adversarial sur pertes cachées-convexes (nonconvexes devenant convexes après reparamétrisation). Les auteurs prouvent que la descente de gradient en ligne (OGD) atteint un regret optimal Θ(√T), améliorant le résultat O(T^2/3) antérieur. Ils caractérisent la condition de compatibilité Hessienne nécessaire-suffisante et étendent l'analyse au feedback bandit avec regret O(T^3/4).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain