Stateful Inference for Low-Latency Multi-Agent Tool Calling
Signal
78
Hype
15
En 3 lignesArchitecture d'inférence avec état persistant pour appels d'outils multi-agents. Cache KV persistent entre les tours, coût réduit de O(n_t) à O(Δ_t). Speedup 2.1× sur workflows 6-tours, 4.2× sur workflows 35-tours vs vLLM/SGLang.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain