Retour au feed
Reddit r/MachineLearning·

Analysis of AlphaZero training data [D]

Signal
45
Hype
15
En 3 lignesAnalyse d'un entraînement AlphaZero sur Othello 6x6. L'auteur rapporte une amélioration intra-génération mais stagnation contre les benchmarks (taux de victoire <10% vs agent glouton). La perte de valeur ne décroît pas, tandis que l'entropie normalisée des cibles de prédiction s'effondre précocement, suggérant un surapprentissage ou un problème d'exploration.
Lire la source
Ton avis ?
Reinforcement learningBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain