arXiv cs.AI·26 mai 2026

LGMT: Logic-Grounded Metamorphic Testing for Evaluating the Reasoning Reliability of LLMs

Signal

Hype

En 3 lignesLGMT est un framework d'évaluation sans oracle basé sur la logique du premier ordre pour tester la fiabilité du raisonnement des LLMs. En dérivant des relations métamorphiques d'équivalences logiques formelles, il crée des cas de test sémantiquement invariants. Expériences sur 6 LLMs SOTA révèlent des défauts cachés non détectés par les benchmarks statiques traditionnels.

Lire la source

Ton avis ?

Raisonnement Évaluations Benchmarks Sécurité IA

Résumé généré par Claude — vérifié par l'humain

LGMT: Logic-Grounded Metamorphic Testing for Evaluating the Reasoning Reliability of LLMs

Autres angles sur ce sujet