Retour au feed
arXiv cs.LG·

GRZO: Group-Relative Zeroth-Order Optimization for Large Language Model Fine-Tuning

Signal
78
Hype
15
En 3 lignesGRZO est un optimiseur zeroth-order pour fine-tuner les LLM avec moins de mémoire. Il génère une perturbation par exemple du mini-batch et normalise les pertes par groupe, augmentant le nombre de directions de gradient du batch sans coût forward supplémentaire. Sur Llama3-8B, GRZO gagne +3.0 points vs MeZO avec 23% moins de mémoire GPU.
Lire la source
Ton avis ?
Fine-tuningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain