Retour au feed
arXiv cs.LG·

From One-Pass SGD to Data Reuse: Mini-Batch Scaling Laws in Sketched Linear Regression

Signal
72
Hype
08
En 3 lignesÉtude théorique des lois d'échelle pour la régression linéaire esquissée avec mini-batches. Analyse comparée de SGD one-pass, SGD multi-pass avec et sans remplacement. Résultat clé : variance en O(min(M,(T_eff*γ)^(1/a))/(B*T_eff)), réduction 1/B en régime multi-pass sans remplacement, fluctuation nulle à B=N.
Lire la source
Ton avis ?
PapersBenchmarksReinforcement learning

Résumé généré par Claude — vérifié par l'humain