Retour au feed
arXiv cs.CL·

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Signal
82
Hype
15
En 3 lignesEnterpriseMem-Bench, un benchmark multi-tour Text-to-SQL de 1 400 tours sur 300 sessions, évalue GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6 et Opus 4.6. Résultats clés : sans mémoire, la précision s'effondre dès le tour 3 ; la mémoire de travail domine les architectures complexes ; Sonnet 4.6 régresse de 17-33pp sur SEC EDGAR vs Sonnet 4.5.
Lire la source
Ton avis ?
BenchmarksGénération de codeGPTClaudeRaisonnement

Résumé généré par Claude — vérifié par l'humain