Mudler publie aujourd'hui des quantifications APEX GGUF de Qwen3.6-35B-A3B distillé sur Claude-4.7-Opus avec une tête MTP (multi-token prediction) intégrée directement dans le fichier. L'intérêt pratique : le décodage spéculatif auto-contenu fonctionne dans llama.cpp sans modèle brouillon séparé à gérer. Le surcoût est minimal — +2,5% de taille, tête quantifiée Q8_0. C'est le type d'empaquetage qui réduit la friction d'adoption pour quiconque veut du speculative decoding en local sans orchestration supplémentaire.
Du côté Apple Silicon, deux signaux convergent : le lancement de mlx-Chronos (CLI open-source + leaderboard communautaire mesurant TTFT, throughput, RAM et état thermique sur oMLX, Rapid-MLX, mlx-lm, Ollama) et un benchmark concret sur M1 Max 64GB avec Qwen 3.5-4B qui place rapid-mlx en tête sur vitesse et efficacité mémoire. Le leaderboard est encore peu peuplé (seulement M2 8GB pour l'instant), mais la méthodologie standardisée est là — c'est exactement ce qui manquait pour comparer sérieusement les moteurs MLX entre eux.
L'article le plus structurellement intéressant reste celui de l'Institut de technologie de Harbin sur LiveBrowseComp : GPT-5.4 et Kimi K2.6, testés sur des événements des 90 derniers jours, confirment surtout leurs connaissances d'entraînement plutôt que d'explorer réellement le web. Quand l'accès à la mémoire d'entraînement est bloqué, les performances s'effondrent. Ce n'est pas un bug de prompt engineering — c'est un problème d'architecture des agents de recherche qui mérite d'être pris en compte avant de déployer ce type de système sur des cas d'usage nécessitant une vraie fraîcheur d'information.
Mudler publie des quantifications APEX GGUF du modèle Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled avec tête MTP (multi-token prediction) intégrée. Les fichiers activent le décodage spéculatif auto-contenu via llama.cpp sans modèle brouillon séparé. Taille +2,5% vs version non-MTP, tête MTP quantifiée Q8_0 pour précision de draft élevée.
mlx-Chronos est un outil CLI open-source et leaderboard communautaire pour benchmarker les moteurs d'inférence LLM locaux sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Mesure TTFT, throughput, RAM, et état thermique avec méthodologie standardisée. Actuellement peuplé uniquement par résultats M2 8GB.
Les agents de recherche IA comme GPT-5.4 et Kimi K2.6 confirment surtout leurs connaissances d'entraînement au lieu de vraiment explorer le web. Des chercheurs de l'Institut de technologie de Harbin ont démontré cela avec LiveBrowseComp, un benchmark basé sur des événements des 90 derniers jours. Sans accès à la mémoire d'entraînement, les performances s'effondrent.
Benchmark d'engines d'inférence sur M1 Max 64GB comparant rapid-mlx, omlx, mlx-lm et ollama avec Qwen 3.5-4B. Rapid-mlx obtient les meilleures performances en vitesse et efficacité mémoire. Résultats publiés sur le leaderboard mlx-chronos.
Komi-learn est un framework pour agents de codage avec mémoire continue et auto-amélioration. Le projet permet aux agents d'apprendre de leurs expériences passées et d'améliorer leurs performances au fil du temps.