qwen 3.6 27B AR-> Diffusion - local training on 5090
Signal
35
Hype
55
En 3 lignesExpérience de fine-tuning local du Qwen 3.6 27B sur RTX 5090 en convertissant l'architecture autoregressive vers diffusion. Utilise QLoRA et nvfp4 pour réduire les besoins VRAM (600GB → entraînable sur 5090). S'inspire d'open-dllm (4x speedup sur Qwen 2.5) et intègre d3LLM pour optimiser les étapes de diffusion. Pas encore de modèle entraîné, mais forward pass validé.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain