Retour au feed
arXiv cs.CL·

OpenCompass: A Universal Evaluation Platform for Large Language Models

Signal
75
Hype
25
En 3 lignesOpenCompass est une plateforme d'évaluation open-source pour LLM proposant une architecture modulaire avec 5 composants clés : système de configuration, partitionnement de tâches, exécution/ordonnancement, unité d'exécution et visualisation. Supporte évaluateurs rule-based, LLM-as-a-Judge et en cascade sur benchmarks multi-domaines (connaissance, raisonnement, code, science).
Lire la source
Ton avis ?
BenchmarksÉvaluationsOpen sourceOutils

Résumé généré par Claude — vérifié par l'humain