Retour au feed
Reddit r/MachineLearning·

I fine-tuned an LLM to be C-3PO to test which training data format works best for persona injection [P]

Signal
72
Hype
25
En 3 lignesExpérience de fine-tuning LoRA comparant trois formats de données pour injecter la persona C-3PO : dialogues, énoncés à la première personne, et documents synthétiques Wikipedia. Les énoncés à la première personne surpassent en généralisation. Les documents synthétiques produisent un comportement paradoxal : le modèle connaît le trait d'anxiété mais l'exprime seulement 37% du temps.
Lire la source
Ton avis ?
Fine-tuningPrompt engineeringPapers

Résumé généré par Claude — vérifié par l'humain