Retour au feed
Reddit r/LocalLLaMA·

Turning every "no thats not what i meant" in chat into actual LoRA training data

Signal
72
Hype
35
En 3 lignesUn développeur a créé une app desktop (TideForge) qui transforme les corrections en chat en données d'entraînement LoRA. Après chaque réponse, un bouton « Teach » permet de noter la correction souhaitée ; les exemples s'accumulent et déclenchent un fine-tuning PEFT sur Qwen 0.6B. Test initial : 110 corrections, loss 4.25→0.73, l'adapter conserve l'identité face aux jailbreaks. App gratuite, Windows, GGUF compatible.
Lire la source
Ton avis ?
Fine-tuningOpen sourceOutilsQwenReinforcement learning

Résumé généré par Claude — vérifié par l'humain