Édition du2026-05-31

MTP intégré dans les GGUF, Apple Silicon benchmarké sérieusement, et les agents de recherche qui font semblant de chercher.

Par l'équipe éditoriale

Les 5 picks du jour

mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF just released !

Mudler publie des quantifications APEX GGUF du modèle Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled avec tête MTP (multi-token prediction) intégrée. Les fichiers activent le décodage spéculatif auto-contenu via llama.cpp sans modèle brouillon séparé. Taille +2,5% vs version non-MTP, tête MTP quantifiée Q8_0 pour précision de draft élevée.

Qwen Génération de code Open source

Reddit r/MachineLearning·SIG 72

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) [P]

mlx-Chronos est un outil CLI open-source et leaderboard communautaire pour benchmarker les moteurs d'inférence LLM locaux sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Mesure TTFT, throughput, RAM, et état thermique avec méthodologie standardisée. Actuellement peuplé uniquement par résultats M2 8GB.

Open source Benchmarks Infrastructure

The Decoder·SIG 72

AI search agents often confirm what they already know instead of actually researching the web

Les agents de recherche IA comme GPT-5.4 et Kimi K2.6 confirment surtout leurs connaissances d'entraînement au lieu de vraiment explorer le web. Des chercheurs de l'Institut de technologie de Harbin ont démontré cela avec LiveBrowseComp, un benchmark basé sur des événements des 90 derniers jours. Sans accès à la mémoire d'entraînement, les performances s'effondrent.

Benchmarks Agents IA GPT

Reddit r/LocalLLaMA·SIG 65

Benchmarked inference engines for M1 Max 64gb-results & analysis

Benchmark d'engines d'inférence sur M1 Max 64GB comparant rapid-mlx, omlx, mlx-lm et ollama avec Qwen 3.5-4B. Rapid-mlx obtient les meilleures performances en vitesse et efficacité mémoire. Résultats publiés sur le leaderboard mlx-chronos.

Qwen Benchmarks Open source

Hacker News (AI)·SIG 45

Show HN: Komi-learn – continuous memory and self-improvement for coding agents

Komi-learn est un framework pour agents de codage avec mémoire continue et auto-amélioration. Le projet permet aux agents d'apprendre de leurs expériences passées et d'améliorer leurs performances au fil du temps.

Agents IA Génération de code Open source