arXiv cs.CL·27 mai 2026

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Signal

Hype

En 3 lignesEnterpriseMem-Bench, un benchmark multi-tour Text-to-SQL de 1 400 tours sur 300 sessions, évalue GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6 et Opus 4.6. Résultats clés : sans mémoire, la précision s'effondre dès le tour 3 ; la mémoire de travail domine les architectures complexes ; Sonnet 4.6 régresse de 17-33pp sur SEC EDGAR vs Sonnet 4.5.

Lire la source

Ton avis ?

Benchmarks Génération de code GPT Claude Raisonnement

Résumé généré par Claude — vérifié par l'humain

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Autres angles sur ce sujet