Édition du2026-05-31

MTP intégré dans les GGUF, Apple Silicon benchmarké sérieusement, et les agents de recherche qui font semblant de chercher.

Mudler publie aujourd'hui des quantifications APEX GGUF de Qwen3.6-35B-A3B distillé sur Claude-4.7-Opus avec une tête MTP (multi-token prediction) intégrée directement dans le fichier. L'intérêt pratique : le décodage spéculatif auto-contenu fonctionne dans llama.cpp sans modèle brouillon séparé à gérer. Le surcoût est minimal — +2,5% de taille, tête quantifiée Q8_0. C'est le type d'empaquetage qui réduit la friction d'adoption pour quiconque veut du speculative decoding en local sans orchestration supplémentaire.

Du côté Apple Silicon, deux signaux convergent : le lancement de mlx-Chronos (CLI open-source + leaderboard communautaire mesurant TTFT, throughput, RAM et état thermique sur oMLX, Rapid-MLX, mlx-lm, Ollama) et un benchmark concret sur M1 Max 64GB avec Qwen 3.5-4B qui place rapid-mlx en tête sur vitesse et efficacité mémoire. Le leaderboard est encore peu peuplé (seulement M2 8GB pour l'instant), mais la méthodologie standardisée est là — c'est exactement ce qui manquait pour comparer sérieusement les moteurs MLX entre eux.

L'article le plus structurellement intéressant reste celui de l'Institut de technologie de Harbin sur LiveBrowseComp : GPT-5.4 et Kimi K2.6, testés sur des événements des 90 derniers jours, confirment surtout leurs connaissances d'entraînement plutôt que d'explorer réellement le web. Quand l'accès à la mémoire d'entraînement est bloqué, les performances s'effondrent. Ce n'est pas un bug de prompt engineering — c'est un problème d'architecture des agents de recherche qui mérite d'être pris en compte avant de déployer ce type de système sur des cas d'usage nécessitant une vraie fraîcheur d'information.

Les 5 picks du jour
01
02
03
04
05
MTP intégré dans les GGUF, Apple Silicon benchmarké sérieusement, et les agents de recherche qui font semblant de chercher. · Signal IA