DRInQ: Evaluating Conversational Implicature with Controlled Context Variation
Signal
72
Hype
18
En 3 lignesDRInQ est un benchmark pour évaluer le raisonnement pragmatique des LLM sur l'implicature conversationnelle. Les chercheurs montrent une asymétrie génération-inférence : les modèles génèrent des scénarios pragmatiques plausibles mais échouent à récupérer l'implication intended à l'inférence. Le prompting structuré améliore l'alignement pour les petits modèles.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain