Retour au feed
arXiv cs.AI·

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

Signal
75
Hype
15
En 3 lignesAMARIS introduit un système de mémoire persistante pour améliorer les rubriques d'évaluation dans l'entraînement par RL des LLMs. Le système accumule les diagnostics d'évaluation au fil du temps, utilise la récupération statique et dynamique pour contextualiser les modifications de rubriques, et ajoute ~5% de surcharge temporelle. Les expériences montrent des gains constants sur les domaines fermés et ouverts.
Lire la source
Ton avis ?
Reinforcement learningFine-tuningÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain