Retour au feed
arXiv cs.LG·

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Signal
72
Hype
15
En 3 lignesUne étude arXiv montre qu'un seuil de capacité décisionnelle détermine l'effondrement en apprentissage par renforcement auto-joué. Éliminer toutes les décisions contingentes à portée positive provoque une convergence rapide vers un attracteur d'exploitation déterministe. Préserver même une seule décision contingente prévient cet effondrement, confirmant que le mécanisme est la co-adaptation sous contrainte.
Lire la source
Ton avis ?
Reinforcement learningPapersMulti-agents

Résumé généré par Claude — vérifié par l'humain