arXiv cs.AI·19 mai 2026

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

Signal

Hype

En 3 lignesAMARIS introduit un système de mémoire persistante pour améliorer les rubriques d'évaluation dans l'entraînement par RL des LLMs. Le système accumule les diagnostics d'évaluation au fil du temps, utilise la récupération statique et dynamique pour contextualiser les modifications de rubriques, et ajoute ~5% de surcharge temporelle. Les expériences montrent des gains constants sur les domaines fermés et ouverts.

Lire la source

Ton avis ?

Reinforcement learning Fine-tuning Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

Autres angles sur ce sujet