arXiv cs.CL·26 mai 2026

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

Signal

Hype

En 3 lignesDRInQ est un benchmark pour évaluer le raisonnement pragmatique des LLM sur l'implicature conversationnelle. Les chercheurs montrent une asymétrie génération-inférence : les modèles génèrent des scénarios pragmatiques plausibles mais échouent à récupérer l'implication intended à l'inférence. Le prompting structuré améliore l'alignement pour les petits modèles.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

Autres angles sur ce sujet