arXiv cs.AI·19 mai 2026

RAP: Runtime Adaptive Pruning for LLM Inference

Signal

Hype

En 3 lignesRAP est un framework de pruning élastique pour l'inférence LLM qui utilise le reinforcement learning pour adapter dynamiquement les stratégies de compression selon les variations mémoire runtime et les demandes hétérogènes de KV-cache. L'agent RL optimise le ratio paramètres/KV-cache en temps réel, conservant uniquement les composants maximisant l'utilité dans le budget mémoire courant.

Lire la source

Ton avis ?

Reinforcement learning Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

RAP: Runtime Adaptive Pruning for LLM Inference

Autres angles sur ce sujet