PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models
Signal
78
Hype
22
En 3 lignesPlanningBench est un framework pour générer des données de planification scalables et vérifiables. Il abstrait 30+ types de tâches et facteurs de difficulté à partir de scénarios réels, puis synthétise des problèmes avec contrôle adaptatif et vérification automatique. L'entraînement par RL sur ces données améliore les performances sur des benchmarks non vus.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain