arXiv cs.LG·3 juin 2026

GRZO: Group-Relative Zeroth-Order Optimization for Large Language Model Fine-Tuning

Signal

Hype

En 3 lignesGRZO est un optimiseur zeroth-order pour fine-tuner les LLM avec moins de mémoire. Il génère une perturbation par exemple du mini-batch et normalise les pertes par groupe, augmentant le nombre de directions de gradient du batch sans coût forward supplémentaire. Sur Llama3-8B, GRZO gagne +3.0 points vs MeZO avec 23% moins de mémoire GPU.

Lire la source

Ton avis ?

Fine-tuning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

GRZO: Group-Relative Zeroth-Order Optimization for Large Language Model Fine-Tuning

Autres angles sur ce sujet