Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]
Signal
35
Hype
15
En 3 lignesDiscussion sur le fine-tuning de petits LLMs avec données conversationnelles annotées incluant traces de raisonnement et décisions d'appel d'outils. L'auteur propose de structurer les données en samples avec historique complet et masquage de la loss sur tokens non-assistant. Demande si SFT suffit ou si RL (PPO, GRPO, DPO) est nécessaire pour optimiser l'utilisation d'outils.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain