Learning How to Cube
Signal
75
Hype
25
En 3 lignesUn framework neuro-symbolique entraîne un modèle 4B-paramètres à générer des heuristiques de cubing pour SAT via SFT+DPO. Le modèle atteint pass@5=53 sur 100 benchmarks SAT, égalant la meilleure heuristique symbolique et surpassant Claude-Sonnet-4 (50). Les données proviennent d'une pipeline MCTS explorant les décisions de splitting sur formules de compétition SAT.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain