RAP: Runtime Adaptive Pruning for LLM Inference
Signal
78
Hype
15
En 3 lignesRAP est un framework de pruning élastique pour l'inférence LLM qui utilise le reinforcement learning pour adapter dynamiquement les stratégies de compression selon les variations mémoire runtime et les demandes hétérogènes de KV-cache. L'agent RL optimise le ratio paramètres/KV-cache en temps réel, conservant uniquement les composants maximisant l'utilité dans le budget mémoire courant.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain