SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models
Signal
78
Hype
22
En 3 lignesSciCustom est un framework pour construire des benchmarks personnalisés évaluant les capacités scientifiques spécifiques des LLM. Il organise les connaissances scientifiques en unités ontologiques, utilise un consensus multi-modèle pour identifier les unités pertinentes, et génère des benchmarks à partir de données réelles en chimie et santé sans annotation experte.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain