Retour au feed
arXiv cs.CL·

Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

Signal
82
Hype
15
En 3 lignesPremière implémentation complète d'un pipeline RAG sur NPU mobile (Snapdragon X Elite Hexagon). Tous les stages (embedding, reranking, génération LLM) tournent on-device. Sur benchmark Wikipedia 120 requêtes : 18.1x plus rapide en prefilling LLM, 4.0x moins d'énergie système que CPU, qualité réponses identique (GPT-4.1 judge : 9.32 vs 8.95 CPU).
Lire la source
Ton avis ?
RAGEmbeddings

Résumé généré par Claude — vérifié par l'humain