arXiv cs.CL·27 May 2026

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Signal

Hype

In three linesEnterpriseMem-Bench, a multi-turn Text-to-SQL benchmark with 1,400 turns across 300 sessions, evaluates GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6, and Opus 4.6. Key findings: without memory, accuracy collapses by Turn 3; working memory dominates complex architectures; Sonnet 4.6 regresses 17-33pp on SEC EDGAR vs Sonnet 4.5.

Read source

Your take?

Benchmarks Code generation GPT Claude Reasoning

Summary generated by Claude — human-verified

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Other angles on this story