Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite
Signal
82
Hype
15
En 3 lignesPremière implémentation complète d'un pipeline RAG sur NPU mobile (Snapdragon X Elite Hexagon). Tous les stages (embedding, reranking, génération LLM) tournent on-device. Sur benchmark Wikipedia 120 requêtes : 18.1x plus rapide en prefilling LLM, 4.0x moins d'énergie système que CPU, qualité réponses identique (GPT-4.1 judge : 9.32 vs 8.95 CPU).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain