PopuLoRA: Co-Evolving LLM Populations for Reasoning Self- Play
Signal
35
Hype
25
En 3 lignesPopuLoRA co-évolue des populations de LLM via LoRA pour l'auto-jeu de raisonnement. Approche inspirée de l'évolution pour améliorer les capacités de raisonnement sans données d'entraînement supervisées supplémentaires.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain