Retour au feed
arXiv cs.CL·

SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models

Signal
78
Hype
22
En 3 lignesSciCustom est un framework pour construire des benchmarks personnalisés évaluant les capacités scientifiques spécifiques des LLM. Il organise les connaissances scientifiques en unités ontologiques, utilise un consensus multi-modèle pour identifier les unités pertinentes, et génère des benchmarks à partir de données réelles en chimie et santé sans annotation experte.
Lire la source
Ton avis ?
BenchmarksÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain