arXiv cs.CL·26 May 2026

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

Signal

Hype

In three linesDRInQ is a benchmark evaluating LLM pragmatic reasoning on conversational implicature. Researchers reveal a generation-inference asymmetry: models generate plausible pragmatic scenarios but fail to recover intended implications at inference time. Structured prompting improves alignment for smaller models.

Read source

Your take?

Benchmarks Reasoning Evals

Summary generated by Claude — human-verified

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

Other angles on this story