Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints
Signal
82
Hype
15
En 3 lignesAlgorithme IC-Q pour l'apprentissage décentralisé de workflows multi-agents avec contraintes d'interface. Chaque agent observe seulement une fonction locale de l'artefact partagé et son état privé, sans accès centralisé aux trajectoires jointes. Garantie de convergence en nombre fini d'échantillons pour Q-learning neuronal avec observabilité partielle décentralisée.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain