Retour au feed
arXiv cs.CL·

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

Signal
75
Hype
15
En 3 lignesART (Attention Run-time Termination) est un mécanisme léger qui interrompt l'accès aux blocs KV lors du décodage si leur contribution à l'attention devient négligeable. Testé sur LongBench, il améliore le débit de génération de 20% en grands batches tout en préservant la précision.
Lire la source
Ton avis ?
RaisonnementInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain