Retour au feed
Reddit r/MachineLearning·

Routing LLMs by task verifiability: a small experiment (n=120, 3 models) inspired by Karpathy's framework [D]

Signal
45
Hype
25
En 3 lignesExpérience sur 120 tâches testant si les modèles faibles peuvent égaler les frontière sur des tâches hautement vérifiables (Karpathy). Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B comparés. Code/extraction structurée : écarts réduits avec retry (Mistral 87%→95% code). Raisonnement multi-hop : gap réel (Sonnet 78%, Mistral 51%). Résumé créatif : avantage attendu aux modèles puissants.
Lire la source
Ton avis ?
ClaudeGPTMistralÉvaluationsRaisonnement

Résumé généré par Claude — vérifié par l'humain