LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?
Signal
78
Hype
25
En 3 lignesLiveK12Bench est un benchmark dynamique multi-disciplinaire évaluant les capacités de raisonnement des modèles multimodaux sur 2K+ questions d'examens réels (Maths, Physique, Chimie, Biologie). Les tests révèlent une dégradation majeure : GPT-5 chute de 79 à 53/100 sous contraintes réalistes d'examen. Le framework inclut un pipeline automatisé anti-contamination et un schéma d'évaluation « Mock Exam » end-to-end.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain