Retour au feed
arXiv cs.CL·

Unified Data Selection for LLM Reasoning

Signal
72
Hype
25
En 3 lignesHES (High-Entropy Sum) est une métrique sans entraînement pour sélectionner les données de raisonnement de haute qualité dans les LLM. Testée sur SFT, RFT et RL, elle permet d'atteindre les performances du dataset complet en utilisant seulement les 20% meilleurs échantillons, réduisant significativement le coût computationnel.
Lire la source
Ton avis ?
RaisonnementFine-tuningReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain