Retour au feed
arXiv cs.AI·

Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

Signal
82
Hype
15
En 3 lignesAlgorithme IC-Q pour l'apprentissage décentralisé de workflows multi-agents avec contraintes d'interface. Chaque agent observe seulement une fonction locale de l'artefact partagé et son état privé, sans accès centralisé aux trajectoires jointes. Garantie de convergence en nombre fini d'échantillons pour Q-learning neuronal avec observabilité partielle décentralisée.
Lire la source
Ton avis ?
Multi-agentsReinforcement learningAgents IAPapers

Résumé généré par Claude — vérifié par l'humain