Retour au feed
Reddit r/MachineLearning·

How to fine-tune an LLM for open-ended problems? [P]

Signal
35
Hype
15
En 3 lignesUn chercheur demande comment fine-tuner un LLM pour résoudre des problèmes mathématiques ouverts (preuves). SFT et RLHF classiques insuffisants ; cherche méthode adaptée avec dataset MathNet.
Lire la source
Ton avis ?
Fine-tuningReinforcement learningRaisonnement

Résumé généré par Claude — vérifié par l'humain