Topic

#Qwen

Qwen est une famille de modèles de langage open source développée par Alibaba Cloud, couvrant du texte, du code et du multimodal. Par exemple, Qwen2.5-72B est un modèle de 72 milliards de paramètres disponible en accès libre sur Hugging Face.

40Articles

6Sources

60Signal moyen

Reddit r/LocalLLaMA·18 juin

Quick thoughts on GLM-5.2 (Bonus: Censorship question answers)

GLM-5.2 démontre une excellente cohérence sur très long contexte et un raisonnement adaptatif sans verbosité excessive. L'utilisateur rapporte des performances proches de GPT-4.5 sur analyse lourde et recherche approfondie, avec une vitesse d'inférence supérieure à GLM-5.1. Le modèle possède sa propre signature conversationnelle distincte.

Qwen Raisonnement Open source

SIG

HYP

arXiv cs.CL·18 juin

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

Étude sur l'évaluation des rapports radiologiques générés par IA. Les chercheurs montrent que les LLM existants pénalisent excessivement les reformulations inoffensives tout en détectant les erreurs cliniques. Ils entraînent des métriques légères sur Qwen3-8B et MedGemma-4B surpassant des modèles médicaux 32B, avec publication du dataset et de la métrique.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·18 juin

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

PROPEL est un framework qui entraîne des générateurs de tâches via RL pour créer des problèmes optimaux pour l'apprentissage d'agents. Une sonde légère prédit le taux de résolution sans rollouts répétés du solveur, réduisant l'évaluation à un forward pass. Sur code et SWE, les tâches au « learnable frontier » passent de 10,1% à 20% (Qwen2.5-3B) et de 9,8% à 19,6% (Qwen3.5-27B).

Reinforcement learning Agents IA Génération de code

SIG

HYP

arXiv cs.LG·18 juin

Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression

Méthode de compression structurelle pour modèles MoE (Mixture-of-Experts) via élagage au niveau des canaux. Utilise une approche d'attribution pour maximiser la couverture des scores de canaux. Tests sur DeepSeek et Qwen montrent 50% d'élagage structurel avec quantification 4-bit, réduction mémoire 5.27× sur Qwen3-30B-A3B.

DeepSeek Qwen Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Continuous Audio Thinking for Large Audio Language Models

Continuous Audio Thinking (CoAT) ajoute un espace latent continu aux modèles audio-langage pour préserver les informations acoustiques (phonétique, prosodie, affect, pitch) avant génération de texte. Testé sur Qwen2-Audio, Qwen2.5-Omni-7B et Audio Flamingo, CoAT améliore les performances en raisonnement audio, classification musicale et transcription sans coût de décodage supplémentaire.

Raisonnement Voix Qwen

SIG

HYP

arXiv cs.CL·18 juin

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST est un framework auto-supervisé qui améliore le raisonnement pragmatique des LLM via des traces de raisonnement contrefactuel. Sans données annotées humaines, il combine fine-tuning supervisé et apprentissage par renforcement. Sur 4 benchmarks (PragMega, Ludwig, MetoQA, AltPrag), il gagne +5.37% et +5.50% en absolu pour Qwen3-8B et Qwen3-14B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·18 juin

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Étude arXiv sur l'amélioration du raisonnement long-contexte via une approche data-centric plutôt que l'ingénierie des récompenses. Recette de données ciblant retrieval, synthèse multi-preuves et raisonnement (~14K exemples). Tests sur Qwen3 (4B/8B/30B) : +7.2/+3.2/+6.4 points sur 7 benchmarks long-contexte, transfert aux tâches agentic (+4.8 GAIA, +7.0 BrowseComp).

Reinforcement learning Raisonnement Agents IA

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Lin Junyang AI Lab Closes Round at $2B Valuation

Le laboratoire IA de Lin Junyang lève des fonds à une valorisation de 2 milliards de dollars. Lin Junyang, responsable de la ligne Qwen, lance un nouveau projet. La communauté open source anticipe des contributions significatives.

Qwen Open source Financements

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GLM 5.2 Release Video [Made with GLM 5.2]

GLM 5.2 génère des vidéos via Remotion, comparable à Fable mais inférieur à Gemini 3.1 Pro. Surcharge serveurs observée sur OpenRouter avec timeouts sur sorties longues.

Génération de vidéos Gemini Qwen

SIG

HYP

Reddit r/LocalLLaMA·17 juin

My GLM-5.2-FP8 HGX-H200 SGLang docker deploy config

Configuration Docker pour déployer GLM-5.2-FP8 sur HGX-H200 avec SGLang. Atteint 70 tokens/s et 262k contexte en désactivant DP et moe-a2a-backend deepep, avec mem-fraction-static à 0.83. Les recettes vLLM officielles incompatibles avec H200.

Qwen Génération de code Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité d'agents IA à construire des jeux jouables end-to-end dans un moteur de jeu réel. Benchmark teste Opus-4.7, GPT-5.5, Kimi-K2.6, DeepSeek-V4-Pro et autres. Absence de résultats pour modèles médium (27B-31B).

Agents IA Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Headless screenshot loops let a local 30B agent finish a raytraced FPS demo in pure C

Un agent local Qwen 27B a complété une démo FPS raytraced en C pur en utilisant des boucles de screenshots headless pour déboguer visuellement. L'ajout d'un mode headless permettant à l'agent de capturer des frames et d'inspecter les résultats a transformé l'approche : le modèle a appris à automatiser le débogage visuel récursif.

Qwen Agents IA Génération de code

SIG

HYP

Reddit r/LocalLLaMA·17 juin

SIQ-1 Qwen3.6 for autoresearch and autonomous agency

SIQ-1 Qwen3.6 : fine-tuning PPO du Qwen-35B-A3 surpassant GLM-5.2 et Qwen-350B sur autoresearch (karpathy benchmark) et bullshit-bench. Modèle + GGUF disponibles sur HuggingFace avec agent démo.

Qwen Reinforcement learning Agents IA

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Local models went from mostly useless to actually useful really fast. What changed?

Les modèles locaux sont passés d'outils marginaux à des solutions viables en un an. Gemma, Qwen, GLM, Kimi remplacent désormais certains appels API pour le code, les documents privés et les workflows locaux, bien que le gap persiste sur les tâches complexes nécessitant planification et correction d'erreurs.

Llama Open source Qwen

SIG

HYP

Reddit r/LocalLLaMA·17 juin

It looks like Rio 3.5 397B could've simply been a semi-failed embezzling of funding

Rio 3.5 397B, financé à hauteur de 100K USD, s'avère être un simple merge de modèles (Nex N2 Pro) sans entraînement supplémentaire, contrairement aux affirmations initiales basées sur Qwen 3.5 397B. Après découverte, l'équipe a modifié la documentation et prétend avoir perdu le modèle entraîné, soulevant des soupçons de détournement de fonds.

Open source Qwen

SIG

HYP

arXiv cs.CL·17 juin

MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task

Le groupe MLLP-VRAIN participe à IWSLT 2026 en traduction simultanée parole-parole avec Parakeet et Qwen 3.5. Système en cascade utilisant des politiques adaptatives et RAG pour enrichir la génération. Amélioration de +5.82 XCOMET-XL sur En→De vs année précédente.

Qwen RAG Génération de code

SIG

HYP

arXiv cs.CL·17 juin

From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Framework LLM-as-Environment-Engineer : le modèle de politique analyse ses trajectoires d'échec et propose des modifications à la configuration d'entraînement RL pour l'étape suivante. Testbed MAPF-FrozenLake avec configurations multi-dimensionnelles. Qwen3-4B surpasse GPT et Gemini sur les benchmarks proposés.

Reinforcement learning Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

Fine-tuning de Qwen3.5-27B pour prédire les scores PHQ-9 (dépression) directement à partir de transcriptions de conversations avec une application IA de santé mentale. 6 283 utilisateurs (3 111 labels + pseudolabels Claude Opus). Performance : MAE=2.6, RMSE=4.0, r=0.80, AUC=0.91 au seuil clinique PHQ-9≥10.

Fine-tuning Raisonnement Qwen

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 is now 1st on Design Arena — ahead of the now unavailable Claude Fable 5.

GLM-5.2 atteint la 1ère place du classement Design Arena, devançant Claude Fable 5 qui n'est plus disponible. Le modèle de Zhipu AI domine le benchmark de conception.

Benchmarks Qwen

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 just dropped open weights and it already looks weirdly strong for coding

GLM-5.2 sort en poids ouverts avec licence MIT. Fenêtre de contexte 1M, deux modes de raisonnement, performances fortes en coding sur les arenas. Modèle open-source contrairement aux versions API-only.

Qwen Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 is the first open-weights model to cross 80% on Terminal-Bench and beats every other open model available

GLM-5.2 devient le premier modèle open-weights à dépasser 80% sur Terminal-Bench, surpassant tous les autres modèles ouverts et Gemini. Classé frontier-level à coût réduit.

Qwen Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 Takes #2 Spot on WebDew Arena

GLM-5.2 atteint la 2e place du classement WebDev Arena. Le modèle Qwen positionne bien face aux concurrents majeurs.

Qwen Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 is available on HuggingChat

GLM-5.2, le modèle de Zhipu AI, est désormais accessible via HuggingChat. Pas de détails techniques fournis dans l'annonce.

Qwen

SIG

HYP

Simon Willison·16 juin

Quoting Georgi Gerganov

Georgi Gerganov (créateur de llama.cpp) utilise quotidiennement Qwen3.6-27B pour des tâches de codage sur M2 Ultra et RTX 5090. Il l'intègre via un agent léger (pi) avec prompt système personnalisé pour l'assistance à la maintenance ggml-org.

Qwen Génération de code Agents IA

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Qwen Robot Suite

Alibaba annonce Qwen Robot Suite, une suite logicielle pour robotique basée sur ses modèles Qwen. Détails techniques et capacités non précisés dans l'extrait.

Qwen Robotique

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Qwen3.6 27B quants

Utilisateur teste Qwen3.6 27B en quantization extrême (IQ3 XXS turbo4) vs Q8 sur tâche de review de code. IQ3 XXS (5min, 1230pp/50tg) produit recommandations comparables à Q8 (1h56m, 306pp/3tg). Conclusion : quantization agressive suffisante pour coding si prompt/jugement solides.

Qwen Génération de code Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Be wary of Qwen/Claude distillations - they're often worse than the base model

Les distillations Qwen/Claude circulant sur r/LocalLLaMA (Qwopus, Fable 5 sur Qwen 3.6) utilisent 4k-10k samples d'entraînement, insuffisant pour améliorer les performances. Comparé aux 700k samples des distillations DeepSeek-R1 officielles, ces modèles ne dépassent pas le Qwen de base et dégradent légèrement la qualité malgré un style de raisonnement différent.

Qwen Claude Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models

ASAG, une méthode sans entraînement basée sur l'analyse des distributions d'attention, détecte le surapprentissage dans les modèles de raisonnement et arrête la génération de manière adaptative. Testé sur DeepSeek-R1-Distill et Qwen3, elle améliore la précision de 3,2% tout en réduisant les tokens générés de 40% sur Qwen3-8B.

Raisonnement DeepSeek Qwen

SIG

HYP

Reddit r/LocalLLaMA·16 juin

HalBench: 29 OSS models tested on a custom built Sycophancy and Hallucination Benchmark, Qwen 3.6 and Gemma 4 scoring far above their weight! (While Meta keeps proving they forgot how to spend their money...)

HalBench v2.3 évalue 29 modèles open-source sur la sycophantie et hallucinations via 3,076 questions avec fausses prémisses. Qwen 3.6 (~27B) atteint 36.6% de rejet, surpassant tous les modèles open plus grands, GPT-5.4 et Gemini 3.1 Pro. Seuls Sonnet 4.6 et Grok dépassent 50%. Phi-4 obtient 2.3%.

Benchmarks Open source Évaluations

SIG

HYP

Reddit r/LocalLLaMA·15 juin

vLLM has a new streaming parser for Qwen3+ available in nightly

vLLM déploie un nouveau parser de streaming pour Qwen3+ en version nightly. Il corrige les arrêts prématurés de Qwen3.6-27b en cours de génération et les défaillances des appels d'outils lors du streaming. Ces problèmes affectaient particulièrement les workflows d'agents.

Qwen Agents IA Open source

SIG

HYP

Reddit r/MachineLearning·15 juin

Cleo: trying to fit full analyst behavior in a 2B model [P]

Cleo est un fine-tune de Qwen 2B-Base conçu pour les tâches text-to-SQL. Le modèle intègre entraînement, évaluation et inférence dans un même système unifié, avec couche de sécurité SQL, gestion des dialectes et comportement de clarification. Code, modèle et datasets sont open-source.

Qwen Fine-tuning Génération de code

SIG

HYP

Reddit r/LocalLLaMA·15 juin

Cheapest hardware for Qwen 3.6: both 27B and 35B-A3B

Comparaison de configurations matérielles bon marché pour exécuter Qwen 3.6 27B et 35B. RTX 3090 24GB préféré au V100 pour la pérennité. Configuration complète (Ryzen 5 5600X + RTX 3090 + 32GB RAM) à ~2000$ via Alibaba.

Qwen Génération de code Agents IA

SIG

HYP

Reddit r/LocalLLaMA·15 juin

This is amazing. Token speed doubled + kv cache now need low vram - qwen 27b

Qwen 27B affiche une vitesse de génération doublée et une consommation VRAM réduite (21 GB → 17,5 GB) sur le même matériel, sans perte de précision contextuelle.

Qwen Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·15 juin

An agent that plans with a frontier model but runs most of tokens locally (built it for my own dual-3090 rig)

Outil personnel d'agent hybride : planification avec modèle frontier (Codex), exécution locale avec Qwen 3.6 27B sur dual RTX 3090. Architecture 3 niveaux (Planner/Local/Senior optionnel) pour minimiser coûts frontier tout en gardant capacités de raisonnement. Validation déterministe des tâches.

Agents IA Qwen Génération de code

SIG

HYP

Reddit r/LocalLLaMA·15 juin

I ported EXL3 to run well on Apple Silicon - PonyExl3

Portage d'EXL3 (codec haute qualité/faible RAM) sur Apple Silicon via Metal. M5 Max atteint ~600 tok/s prefill et ~38 tok/s génération (Qwen 27B), surpassant RTX 4090 sur certains benchmarks (68.5-80 tok/s decode). Repo GitHub avec résultats reproductibles.

Open source Génération de code Infrastructure

SIG

HYP

arXiv cs.CL·15 juin

Retrospective Progress-Aware Self-Refinement for LLM Agent Training

RePro, un framework d'entraînement pour agents LLM, enseigne aux modèles à générer rétrospectivement des signaux de progrès via un paradigme forward-then-reflect. Testé sur WebShop, ALFWorld et Sokoban avec la famille Qwen, RePro atteint +12% de gain absolu en taux de succès sans supervision externe continue.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·15 juin

VISTA: View-Consistent Self-Verified Training for GUI Grounding

VISTA propose une méthode de fine-tuning basée sur GRPO pour améliorer le grounding GUI. Elle génère plusieurs vues du même écran (crops préservant l'élément cible) pour créer des groupes de comparaison plus robustes. Sur ScreenSpot-Pro, elle améliore Qwen3-VL 4B/8B/30B de 55.5/52.7/53.7 à 63.4/65.8/67.0.

Reinforcement learning Vision Benchmarks

SIG

HYP

arXiv cs.LG·15 juin

SuperThoughts: Reasoning Tokens in Superposition

SuperThoughts compresse les paires de tokens CoT consécutifs en représentations latentes uniques et décode deux tokens par étape via un module Multi-Token Prediction léger. Testé sur Qwen2.5-Math (1.5B, 7B, 14B), l'approche réduit la longueur CoT de 20-30% tout en maintenant la précision (dégradation 1-2 points sur MATH500, AMC, OlympiadBench, GPQA-Diamond).

Raisonnement Qwen Génération de code

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Nemotron - King of the Deep? Comparison of 4 models <=120B

Benchmark de 4 modèles ≤120B sur contexte profond (jusqu'à 400k tokens). Nemotron Super 120B surpasse GPT-OSS 120B et Qwen 3.5 122B en vitesse de traitement de prompt (PP) dès 16-32k tokens. Nemotron maintient >100 TPS PP jusqu'à 400k contexte, mais génération de tokens (TG) reste lente (10-20 TPS).

Benchmarks Qwen Open source

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Voice-to-voice chatbot update

Chatbot vocal local temps quasi-réel utilisant Qwen3.5-397B (Unsloth UD-Q3_K_XL), Whisper-small (STT) et Orpheus Q4_K_XL (TTS) avec décodeur SNAC custom sur ONNX. Interruptible, contexte préservé, 21.3 GB VRAM max sur GPU 24GB, cache KV bf16 131k tokens. Code GitHub annoncé.

Qwen Voix Génération de code

SIG

HYP