Retour au feed
Reddit r/LocalLLaMA·

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)

Signal
72
Hype
25
En 3 lignesKrasis v1.0, runtime LLM pour modèles dépassant la VRAM, atteint 12.48 tokens/s sur RTX 3070 Mobile 8GB avec Qwen3.6-35B-A3B (Q4). Passage en Rust pur (sans Python en hot path) et optimisations prefill/decode séparent les architectures. Benchmarks : 222 pp, 12.48 tg sur laptop ; 10,030 pp, 124.9 tg sur RTX 5090 32GB.
Lire la source
Ton avis ?
QwenInfrastructureOpen sourceGénération de code

Résumé généré par Claude — vérifié par l'humain