TeachObs: A Human-Validated Benchmark for Multimodal Teaching Observation and Model Evaluation
Signal
78
Hype
15
En 3 lignesTeachObs est un benchmark multimodal validé par des humains pour l'analyse de vidéos de classe. Il contient 30 leçons publiques de 8 pays, divisées en 5 158 scènes de 15 secondes, annotées par 7 chercheurs avec 39 codes d'observation (20 visuels, 19 non-visuels). Évaluation de 5 LLMs vision sur 3 tâches : aucun modèle ne surpasse les autres systématiquement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain