I created an LLM post-training method called RPS. Preliminary results show that it improved Qwen3-8b's program synthesis reliability. [R]
Signal
62
Hype
35
En 3 lignesRPS est une méthode de post-entraînement en deux étapes inspirée de la neuroplasticité : données faciles avec taux d'apprentissage élevé, puis données difficiles avec taux réduit de 90%. Sur Qwen3-8b, RPS atteint 4% sur ARC-AGI 1 et 1145/1200 exécutions sans erreur en synthèse de programmes, contre 2.4% et 870/1200 pour EPS (taux égal).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain