Retour au feed
arXiv cs.CL·

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Signal
75
Hype
25
En 3 lignesDes chercheurs entraînent KinGPT (25M paramètres) sur des données d'échecs et montrent que les performances élevées des modèles fine-tunés sur les échecs résultent surtout du pattern-matching, non de la compréhension réelle. LLM-Modulo, un framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de meilleur coup. Code, données et checkpoints open-sourcés.
Lire la source
Ton avis ?
BenchmarksÉvaluationsFine-tuningPapersOpen source

Résumé généré par Claude — vérifié par l'humain