GRADE: Generalizable Reasoning-Aware Dialogue Evaluation for AI Tutors
Signal
75
Hype
15
En 3 lignesGRADE évalue 120 configurations de modèles open-source (Gemma3-12B/27B, LoRA, CoT+Reasoning) pour l'évaluation pédagogique en dialogues tuteur-étudiant. Gemma3-27B 8-bit surpasse les systèmes propriétaires. L'augmentation synthétique aide les modèles faibles ; CoT+Reasoning est plus utile pour la génération que la classification directe.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain