arXiv cs.AI·19 mai 2026

ARROW: Augmented Replay for RObust World models

Signal

Hype

En 3 lignesARROW étend DreamerV3 avec un système de replay à deux buffers (court et long terme) pour l'apprentissage par renforcement continu. Testé sur Atari et Procgen, l'algorithme réduit l'oubli catastrophique tout en maintenant le transfert de connaissances, inspiré par la relecture d'expériences dans le cerveau.

Lire la source

Ton avis ?

Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

ARROW: Augmented Replay for RObust World models

Autres angles sur ce sujet