arXiv cs.CL·19 mai 2026

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

Signal

Hype

En 3 lignesAMARIS améliore l'apprentissage par renforcement basé sur des rubriques en intégrant une mémoire persistante d'évaluation. Le système accumule les diagnostics d'évaluation au fil du temps, les récupère via recherche statique et sémantique, et adapte les rubriques de récompense en continu. Expériences montrent gains de performance avec ~5% de surcharge temporelle.

Lire la source

Ton avis ?

Reinforcement learning Fine-tuning Évaluations Raisonnement

Résumé généré par Claude — vérifié par l'humain

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

Autres angles sur ce sujet