Reddit r/LocalLLaMA·27 mai 2026

Turning every "no thats not what i meant" in chat into actual LoRA training data

Signal

Hype

En 3 lignesUn développeur a créé une app desktop (TideForge) qui transforme les corrections en chat en données d'entraînement LoRA. Après chaque réponse, un bouton « Teach » permet de noter la correction souhaitée ; les exemples s'accumulent et déclenchent un fine-tuning PEFT sur Qwen 0.6B. Test initial : 110 corrections, loss 4.25→0.73, l'adapter conserve l'identité face aux jailbreaks. App gratuite, Windows, GGUF compatible.

Lire la source

Ton avis ?

Fine-tuning Open source Outils Qwen Reinforcement learning

Résumé généré par Claude — vérifié par l'humain

Turning every "no thats not what i meant" in chat into actual LoRA training data

Autres angles sur ce sujet