Opinions/improvements for my Qwen3.6-35B-A3B-FP8 + Hermes Agent setup on NVIDIA DGX Spark?
Signal
35
Hype
15
En 3 lignesUtilisateur déploie Qwen3.6-35B-A3B-FP8 avec Hermes Agent sur NVIDIA DGX Spark via vLLM. Configuration : contexte 262k tokens, FP8 KV-cache, FlashInfer, prefix-caching, chunked-prefill, speculative decoding (Qwen3 MTP). Demande retours sur stabilité et optimisations.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain