Xiaomi just claimed 1,000+ tps on a 1T model using a standard 8-GPU server
Xiaomi annonce MiMo-V2.5-Pro UltraSpeed avec 1 000+ tokens/sec sur un modèle MoE de 1T paramètres sur serveur 8-GPU standard, sans hardware spécialisé.
Xiaomi annonce MiMo-V2.5-Pro UltraSpeed avec 1 000+ tokens/sec sur un modèle MoE de 1T paramètres sur serveur 8-GPU standard, sans hardware spécialisé.
Nex N2 Pro (fine-tune Qwen 3.5 397B) affiche un pattern de raisonnement distinctif utilisant des mots simples répétés (« need », « maybe ») pour économiser les tokens. L'utilisateur observe que cette approche rend le parsing du raisonnement plus difficile malgré une réduction de complexité linguistique.
Terence Tao, mathématicien de renommée mondiale, promeut l'utilisation de l'IA dans la recherche mathématique. Il explore comment les outils d'IA peuvent augmenter les capacités de découverte et de preuve en mathématiques.
Utilisateur avec 2x RTX 3060 Ti teste Gemma 4 QAT avec modèle assistant MTP sur llama.cpp. Atteint 100 t/s (33% gain) avec 80%+ taux d'acceptation du draft, cherche optimisations pour dépasser ce seuil.
Un avocat cherche à construire un système local de RAG pour analyser des dossiers judiciaires (correspondances, contrats, décisions) avec citations. Après tests sur Qwen 3.5 9B et gpt-oss-20b via LM Studio + Big RAG, il rencontre deux problèmes : vitesse insuffisante (~2.2 tok/s) et refus du modèle de citer ses propres documents, générant des explications génériques au lieu d'analyses basées sur le contexte fourni.
Un développeur abandonne ses abonnements IA mensuels (210 $/mois) pour un Mac Mini, économisant 2 500 $ annuels. Comparaison coût-bénéfice entre services cloud et infrastructure locale.
Le fil d'actualité de Meta AI génère du contenu problématique : faux drames, clickbait et contenus trompeurs. Les utilisateurs sont confus sur la nature réelle de l'assistant et sa fiabilité.
Expérience de 4 mois testant si les fenêtres de contexte peuvent être engineered pour que les modèles frontière (GPT, Claude, Gemini, Grok) interagissent de manière indistinguishable d'une interaction humaine. Gemini montre la meilleure « relational intelligence ». L'auteur traite la fenêtre de contexte comme environnement comportemental plutôt que simple interface.
Anthropic demande une pause mondiale dans la course à l'IA, alertant sur le risque d'une IA capable de s'améliorer seule. La demande reste spectaculaire mais son caractère stratégique interroge.
Blaise v0.10.0 introduit un backend natif, le support des threads et la compilation incrémentale. Mise à jour technique d'un langage de programmation avec améliorations de performance et de concurrence.
HubSpot intègre un agent IA d'assistance client dans son Marketing Hub pour améliorer l'engagement. L'outil vise à fournir des réponses rapides et précises aux clients sur le Web.
PM Skills Marketplace propose 100+ compétences, commandes et plugins pour agents IA, couvrant découverte, stratégie, exécution, lancement et croissance.
Projet open-source pour donner à la Xiaoai Speaker la capacité d'écoute vocale avancée. Déverrouille des fonctionnalités vocales illimitées sur l'enceinte connectée Xiaomi.
Zoom lance ZoomMate et AI Productivity Suite pour intégrer les conversations aux workflows. L'éditeur poursuit son expansion dans les outils collaboratifs.
Article académique sur une nouvelle classe de vers informatiques capables de modifier visuellement le contenu web en temps réel, inspirée par les techniques d'art numérique. Approche théorique de sécurité explorant les vulnérabilités de rendu côté client.
OpenAI présente sa vision pour l'avenir de l'IA, axée sur l'accès, la sécurité et la prospérité partagée. L'entreprise affirme travailler à garantir que l'AGI bénéficie à tous.
Un utilisateur de r/LocalLLaMA critique Pi, le framework d'agents de Mario Zechner, pour ne pas être optimisé pour les LLMs locaux. Pi utilise un prompt système court et peu d'outils, conçu pour les utilisateurs d'API (Claude). L'auteur teste Pi sur Nemotron et Qwen : les modèles locaux échouent à exécuter des tool calls fiables sans activer le reasoning, révélant une inadéquation fondamentale.
Nightwatch est un outil open-source pour SRE (Site Reliability Engineering) basé sur l'IA, fonctionnant en mode lecture seule. Présenté sur Hacker News avec un score modeste (4 points, 2 commentaires), il propose une approche d'automatisation sans modification directe des systèmes.
Utilisateur signale que la variante QAT de Gemma-4 26B A4B (google/gemma-4-26B-A4B-it-qat-q4_0-gguf et unsloth/gemma-4-26B-A4B-it-qat-GGUF:Q4_K_XL) produit des résultats dégradés sur un test SVG d'échiquier avec llama.cpp b9549, comparé à l'ancienne version non-QAT qui fonctionne correctement.
GMKtec annonce l'EVO-X3 avec OCuLink, Wi-Fi 7 et dual PCIe 4.0. Un modèle avec Ryzen AI MAX+ 495 et 192GB de RAM est prévu pour fin 2024. Première annonce matérielle connue pour ce processeur.
Un fondateur bootstrappé analyse le retour sur investissement des outils de codage IA. Le calcul diffère pour les startups sans financement externe : coûts d'API, productivité réelle et impact sur la vélocité de développement ne suivent pas la même logique que pour les entreprises financées.
Utilitaire open-source pour lancer llama-server avec gestion centralisée des configurations et modèles. Supporte plusieurs binaires llama-server, surcharges par modèle et ligne de commande. Disponible sur GitHub.
Analyse des coûts d'inférence : Anthropic et OpenAI dépenseraient 10x plus que leurs revenus par requête utilisateur. Les marges opérationnelles seraient négatives à grande échelle, soulevant des questions sur la viabilité économique des modèles actuels.
Recueil de 500 projets d'agents IA couvrant santé, finance, éducation, retail. Collection de cas d'usage pratiques avec liens vers repos open-source pour implémentation.
AstrBot est un framework d'agent IA intégrant plusieurs plateformes de messagerie, LLMs et plugins. Alternative open-source à OpenClaw pour développer des assistants IA.
DeskDash est un outil Windows gratuit pour gérer facilement les fichiers GGUF. Développé par la communauté, il simplifie l'organisation et l'utilisation des modèles quantifiés localement.
OpenAI propose des vouchers Codex aux sponsors de Hugging Face pour tester le modèle de génération de code. Initiative de partenariat entre OpenAI et la plateforme communautaire.
Lathe est un outil qui utilise les LLM pour approfondir l'apprentissage d'un domaine plutôt que de le contourner. Le projet, partagé sur Hacker News, propose une approche pédagogique où les modèles de langage facilitent la compréhension progressive.
Nouvelle approche de modèles de diffusion pour générer des images à partir d'une seule image source, sans entraînement supplémentaire. La méthode est efficace en termes de calcul et de mémoire.
Chercheur partage une collection de 1700 papiers arXiv organisés en 90 catégories depuis le lancement de ChatGPT. Migré d'Obsidian vers un site web avec 6000 « Inquiring Lines » (synthèses cross-cutting) et liens wiki entre papiers. Inclut des prompts pour découvrir recherches connexes récentes.
Discussion sur la méthodologie de comparaison entre Gemma 4 31B original et sa version QAT quantifiée en Q4. L'auteur propose de benchmarker d'abord les versions non quantifiées (SuperGPQA, HLE, MMLU) puis de mesurer la divergence de chaque Q4 par rapport à sa référence respective, plutôt que de comparer directement les deux variantes.
Un utilisateur exécute Gemma-4-26B-A4B sur un vieux CPU i5-8500 avec 32 GB RAM sans GPU, atteignant ~7 T/s via Koboldcpp. Les modèles compressés récents rendent les GPUs moins nécessaires pour l'inférence locale.
Étudiant amateur cherche relecture critique d'une architecture de réseau de neurones personnalisée (Directional Neural Network) qu'il a développée. L'architecture montre de meilleures performances que les MLPs sur des tâches simples, mais l'auteur craint un biais d'évaluation dans ses comparaisons (initialisation, optimiseur, datasets). Partage un repo avec code reproductible.
Protocole de mémoire universel proposé pour standardiser le format de stockage et d'accès aux données de mémoire entre agents IA. Vise à faciliter l'interopérabilité et la réutilisabilité des systèmes multi-agents.
Computex 2026 explore l'émergence des PC agentiques. L'industrie débat si les ordinateurs personnels intègrent enfin des agents IA autonomes capables d'exécuter des tâches sans intervention humaine constante.
Un utilisateur a demandé à GLM AI (agent Alibaba) de créer un serveur Minecraft jouable. L'agent a généré le serveur, créé un tableau de bord et l'a hébergé à Hong Kong. Démonstration de capacités d'exécution de tâches complexes.
Un utilisateur partage une version 4-bit quantifiée non officielle de Gemma 4 26B MoE. Le modèle modifie intentionnellement les mécanismes de refus et de divergence par rapport à la version originale.
Analyse des incohérences de précision dans la quantification aware training (QAT) de Gemma 4. Le modèle 12B montre des écarts plus importants par rapport à FP16 que les variantes MoE (E2B/E4B), contredisant les attentes théoriques. Demande de clarification sur la méthodologie et comparaisons avec variants non-QAT.
Dépôt GitHub proposant une infrastructure d'IA agentique conçue pour amplifier les capacités humaines. Approche centrée sur l'intégration d'agents IA dans des workflows personnels.
Supabase est une plateforme de développement Postgres offrant une base de données dédiée pour construire des applications web, mobile et IA.