Reddit r/LocalLLaMA·28 mai 2026

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)

Signal

Hype

En 3 lignesKrasis v1.0, runtime LLM pour modèles dépassant la VRAM, atteint 12.48 tokens/s sur RTX 3070 Mobile 8GB avec Qwen3.6-35B-A3B (Q4). Passage en Rust pur (sans Python en hot path) et optimisations prefill/decode séparent les architectures. Benchmarks : 222 pp, 12.48 tg sur laptop ; 10,030 pp, 124.9 tg sur RTX 5090 32GB.

Lire la source

Ton avis ?

Qwen Infrastructure Open source Génération de code

Résumé généré par Claude — vérifié par l'humain

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)

Autres angles sur ce sujet