arXiv cs.CL·22 mai 2026

Unified Data Selection for LLM Reasoning

Signal

Hype

En 3 lignesHES (High-Entropy Sum) est une métrique sans entraînement pour sélectionner les données de raisonnement de haute qualité dans les LLM. Testée sur SFT, RFT et RL, elle permet d'atteindre les performances du dataset complet en utilisant seulement les 20% meilleurs échantillons, réduisant significativement le coût computationnel.

Lire la source

Ton avis ?

Raisonnement Fine-tuning Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Unified Data Selection for LLM Reasoning

Autres angles sur ce sujet