Retour au feed
arXiv cs.AI·

The Token Games: Evaluating Language Model Reasoning with Puzzle Duels

Signal
75
Hype
25
En 3 lignesTTG (Token Games) est un framework d'évaluation où les modèles de langage se défient mutuellement en créant des puzzles de programmation. Le système utilise des duels par paires et des ratings Elo pour comparer 10 modèles frontier. Les résultats correspondent aux benchmarks existants (Humanity's Last Exam) pour moins de 200 USD sans curation humaine.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain