Retour au feed
arXiv cs.AI·

PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

Signal
78
Hype
22
En 3 lignesPlanningBench est un framework pour générer des données de planification scalables et vérifiables. Il abstrait 30+ types de tâches et facteurs de difficulté à partir de scénarios réels, puis synthétise des problèmes avec contrôle adaptatif et vérification automatique. L'entraînement par RL sur ces données améliore les performances sur des benchmarks non vus.
Lire la source
Ton avis ?
BenchmarksRaisonnementReinforcement learningÉvaluations

Résumé généré par Claude — vérifié par l'humain