Reddit r/LocalLLaMA·20 May 2026

Opinions/improvements for my Qwen3.6-35B-A3B-FP8 + Hermes Agent setup on NVIDIA DGX Spark?

Signal

Hype

In three linesUser deploys Qwen3.6-35B-A3B-FP8 with Hermes Agent on NVIDIA DGX Spark via vLLM. Setup: 262k token context, FP8 KV-cache, FlashInfer, prefix-caching, chunked-prefill, speculative decoding (Qwen3 MTP). Seeks feedback on stability and optimizations.

Read source

Your take?

Qwen AI Agents Infrastructure Code generation

Summary generated by Claude — human-verified

Opinions/improvements for my Qwen3.6-35B-A3B-FP8 + Hermes Agent setup on NVIDIA DGX Spark?

Other angles on this story