Retour au feed
arXiv cs.AI·

LGMT: Logic-Grounded Metamorphic Testing for Evaluating the Reasoning Reliability of LLMs

Signal
78
Hype
25
En 3 lignesLGMT est un framework d'évaluation sans oracle basé sur la logique du premier ordre pour tester la fiabilité du raisonnement des LLMs. En dérivant des relations métamorphiques d'équivalences logiques formelles, il crée des cas de test sémantiquement invariants. Expériences sur 6 LLMs SOTA révèlent des défauts cachés non détectés par les benchmarks statiques traditionnels.
Lire la source
Ton avis ?
RaisonnementÉvaluationsBenchmarksSécurité IA

Résumé généré par Claude — vérifié par l'humain