arXiv cs.CL·28 May 2026

GRADE: Generalizable Reasoning-Aware Dialogue Evaluation for AI Tutors

Signal

Hype

In three linesGRADE evaluates 120 configurations of open-source models (Gemma3-12B/27B, LoRA, CoT+Reasoning) for pedagogical ability assessment in tutor-student dialogues. Gemma3-27B 8-bit outperforms proprietary systems. Synthetic augmentation helps struggling models; CoT+Reasoning more useful for generation than direct classification.

Read source

Your take?

Benchmarks Fine-tuning Reasoning Evals Open source

Summary generated by Claude — human-verified

GRADE: Generalizable Reasoning-Aware Dialogue Evaluation for AI Tutors

Other angles on this story