Retour au feed
arXiv cs.AI·

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Signal
78
Hype
25
En 3 lignesPreference Delta Aggregation (PDA) agrège des signaux de préférence faibles issus de paires de modèles (ex: Qwen3 4B vs 1.7B) via fusion de LoRA. Geometric Alignment Merging (GAM) aligne les sous-espaces d'adaptateurs avant agrégation. Sur benchmarks de raisonnement et recherche agentique, PDA+GAM améliore Qwen3 8B de +6,8 et +7,3 points respectivement.
Lire la source
Ton avis ?
QwenFine-tuningReinforcement learningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain