Retour au feed
arXiv cs.AI·

A Policy-Driven Runtime Layer for Agentic LLM Serving

Signal
78
Hype
25
En 3 lignesArticle proposant une couche runtime intermédiaire entre framework agent et moteur de serving LLM. Introduit quatre primitives (observe, score, predict, act) pour implémenter des politiques agent-aware (caching KV, batch shaping, spéculation, fairness, sécurité). CacheSage, instance pour caching cross-session, atteint +13 à +37 pp hit-rate, -12 à -29% TTFT, +6 à +14% throughput sur workloads multi-agent réels.
Lire la source
Ton avis ?
Agents IAMulti-agentsInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain