Retour au feed
arXiv cs.AI·

Differentiable Belief-based Opponent Shaping

Signal
72
Hype
18
En 3 lignesD-BOS (Differentiable Belief-based Opponent Shaping) est une méthode MARL qui façonne les adversaires en différenciant à travers les dynamiques de croyance bayésienne softmax sur k étapes. Contrairement aux approches existantes, elle traite l'état de croyance comme cible de façonnage plutôt que les paramètres ou politiques. Résultats : surpasse PPO et BBM dans les jeux à rôles cachés, notamment en contextes mixtes.
Lire la source
Ton avis ?
Multi-agentsReinforcement learningRaisonnement

Résumé généré par Claude — vérifié par l'humain