Reddit r/MachineLearning·21 mai 2026

I created an LLM post-training method called RPS. Preliminary results show that it improved Qwen3-8b's program synthesis reliability. [R]

Signal

Hype

En 3 lignesRPS est une méthode de post-entraînement en deux étapes inspirée de la neuroplasticité : données faciles avec taux d'apprentissage élevé, puis données difficiles avec taux réduit de 90%. Sur Qwen3-8b, RPS atteint 4% sur ARC-AGI 1 et 1145/1200 exécutions sans erreur en synthèse de programmes, contre 2.4% et 870/1200 pour EPS (taux égal).

Lire la source

Ton avis ?

Qwen Fine-tuning Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

I created an LLM post-training method called RPS. Preliminary results show that it improved Qwen3-8b's program synthesis reliability. [R]

Autres angles sur ce sujet