arXiv cs.CL·20 mai 2026

OpenCompass: A Universal Evaluation Platform for Large Language Models

Signal

Hype

En 3 lignesOpenCompass est une plateforme d'évaluation open-source pour LLM proposant une architecture modulaire avec 5 composants clés : système de configuration, partitionnement de tâches, exécution/ordonnancement, unité d'exécution et visualisation. Supporte évaluateurs rule-based, LLM-as-a-Judge et en cascade sur benchmarks multi-domaines (connaissance, raisonnement, code, science).

Lire la source

Ton avis ?

Benchmarks Évaluations Open source Outils

Résumé généré par Claude — vérifié par l'humain

OpenCompass: A Universal Evaluation Platform for Large Language Models

Autres angles sur ce sujet