Retour au feed
arXiv cs.CL·

Context Memorization for Efficient Long Context Generation

Signal
78
Hype
15
En 3 lignesNouvelle méthode training-free pour optimiser l'inférence sur longs contextes : attention-state memory externalise le préfixe en mémoire légère de lookup d'états d'attention précomputés. Sur LLaMA-3.1-8B, améliore l'ICL à 1K-8K tokens, réduit latence attention de 1.36x à 8K, surpasse RAG full-attention avec 20% moins de mémoire.
Lire la source
Ton avis ?
LlamaRAGRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain