arXiv cs.AI·27 mai 2026

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

Signal

Hype

En 3 lignesLiveK12Bench est un benchmark dynamique multi-disciplinaire évaluant les capacités de raisonnement des modèles multimodaux sur 2K+ questions d'examens réels (Maths, Physique, Chimie, Biologie). Les tests révèlent une dégradation majeure : GPT-5 chute de 79 à 53/100 sous contraintes réalistes d'examen. Le framework inclut un pipeline automatisé anti-contamination et un schéma d'évaluation « Mock Exam » end-to-end.

Lire la source

Ton avis ?

Benchmarks Vision Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

Autres angles sur ce sujet