Reddit r/MachineLearning·1 juin 2026

Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]

Signal

Hype

En 3 lignesDiscussion sur le fine-tuning de petits LLMs avec données conversationnelles annotées incluant traces de raisonnement et décisions d'appel d'outils. L'auteur propose de structurer les données en samples avec historique complet et masquage de la loss sur tokens non-assistant. Demande si SFT suffit ou si RL (PPO, GRPO, DPO) est nécessaire pour optimiser l'utilisation d'outils.

Lire la source

Ton avis ?

Fine-tuning Raisonnement Reinforcement learning Agents IA

Résumé généré par Claude — vérifié par l'humain

Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]

Autres angles sur ce sujet