arXiv cs.CL·22 May 2026

Unified Data Selection for LLM Reasoning

Signal

Hype

In three linesHES (High-Entropy Sum) is a training-free metric for selecting high-quality reasoning data in LLMs. Tested across SFT, RFT, and RL paradigms, it achieves full-dataset performance using only the top 20% of samples, significantly reducing computational overhead.

Read source

Your take?

Reasoning Fine-tuning Reinforcement learning Papers

Summary generated by Claude — human-verified

Unified Data Selection for LLM Reasoning

Other angles on this story