arXiv cs.CL·20 mai 2026

SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models

Signal

Hype

En 3 lignesSciCustom est un framework pour construire des benchmarks personnalisés évaluant les capacités scientifiques spécifiques des LLM. Il organise les connaissances scientifiques en unités ontologiques, utilise un consensus multi-modèle pour identifier les unités pertinentes, et génère des benchmarks à partir de données réelles en chimie et santé sans annotation experte.

Lire la source

Ton avis ?

Benchmarks Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models

Autres angles sur ce sujet