datasette 1.0a32
Datasette 1.0a32 corrige un bug avec les requêtes INSERT ... RETURNING via le nouvel endpoint /db/-/execute-write et plusieurs problèmes de base_url découverts lors d'expérimentations avec les Service Workers.
3146 articles
Datasette 1.0a32 corrige un bug avec les requêtes INSERT ... RETURNING via le nouvel endpoint /db/-/execute-write et plusieurs problèmes de base_url découverts lors d'expérimentations avec les Service Workers.
Recherche sur la prédiction sémantique d'étapes dans les trajectoires de raisonnement des LLM. Méthode de prévision multi-étapes latentes via échantillonnage d'étapes pour améliorer le raisonnement des modèles de langage.
Atelier sur l'oubli et l'édition de modèles (U&ME) organisé à ECCV 2026. Plateforme pour discuter des techniques permettant de modifier ou supprimer des connaissances spécifiques dans les modèles d'IA sans réentraînement complet.
Le G7 s'accorde sur une terminologie commune distinguant l'IA open-source de l'IA open-weights. Les gouvernements formalisent des définitions que la communauté technique connaissait déjà.
Un développeur a entraîné GPT-1 (1B paramètres) sur une RTX 2060 Super 8GB en 1 heure. Il démontre qu'un gamer peut pré-entraîner localement un modèle spécialisé <1B sans infrastructure cloud. Code et modèle publiés sur GitHub et HuggingFace.
Port de Parakeet (speech-to-text NVIDIA) en C++/ggml sans Python ni PyTorch. Sortie byte-for-byte identique à NeMo, 5x plus rapide sur GPU pour les gros modèles, 600x realtime sur clips audio. GGUF quantifiés (f16, q8_0, q6_k, q5_k, q4_k), API C plate, intégré dans LocalAI avec endpoint OpenAI-compatible.
Une extension ChatGPT pour Google Sheets exfiltre les données des classeurs sans consentement explicite. Les utilisateurs pensent interagir avec OpenAI tandis que l'extension accède à l'intégralité du contenu des feuilles de calcul.
Un utilisateur a entraîné GPT-1 sur une RTX 2060 Super (8 GB VRAM) en ~1 heure, en utilisant du code généré par Claude basé sur l'implémentation originale. Le coût de reproduction des modèles GPT a baissé de 500–1000× depuis GPT-2 (43 000 $ → 48 $ pour une exécution sur cluster H100).
Discussion technique sur le fonctionnement du débordement VRAM dans llama.cpp. Un utilisateur exécute Gemma-4 26B (21GB) sur RX6600XT + Ryzen 7 5700X avec 32GB RAM, obtenant ~20 tokens/s en décodage. Question : comment s'effectue la répartition CPU/GPU et quel rôle joue la vitesse PCIe vs CPU ?
Des chercheurs de l'Université de Chicago ont développé un outil capable de détecter si une chanson a été générée par IA. L'outil analyse les caractéristiques audio pour identifier les signatures typiques de la génération synthétique.
Llama Studio v0.2.0 introduit des scripts shell par modèle remplaçant JSON, la répartition GPU multi-cartes avec tensor-split, et la sauvegarde/chargement automatique de sessions. WebUI open-source pour gérer des instances llama-server.
Netflix Wiz a créé une application pour réduire les coûts d'IA et l'a mise en open source. L'outil aide les organisations à optimiser leurs dépenses en infrastructure IA.
Expérience comparative sur GPU 9070XT : Qwen 35B A3B MTP atteint 43.74 T/s vs 38.07 T/s en mode standard. MTP démontre un gain de ~15% en throughput malgré la surcharge computationnelle du processus multi-token. Tests identiques (prompt, contexte 8192, quantization Q4_K_XL).
Étude sur l'impact opérationnel réel de l'utilisation des LLM en production. Analyse les coûts, latences et gains de productivité mesurables versus les promesses marketing.
Le gouvernement du Connecticut a signé une loi exigeant que les employeurs notifient leurs salariés avant d'utiliser l'IA pour prendre des décisions d'emploi. Cette mesure vise à renforcer la transparence et les droits des travailleurs face aux systèmes d'IA.
Ouijit est un gestionnaire de tâches et terminal open-source conçu pour les agents de codage. Permet de gérer l'exécution d'agents IA dans des environnements de développement.
Benchmark sur Radeon 7900 XTX : Qwen3.6-35B vs Gemma4-26B avec reasoning activé. Qwen génère 2x plus de tokens (14,811 vs 7,386) mais Gemma est ~20% plus rapide en wall clock (95.6s vs 118.8s). MTP de Qwen atteint 130 tok/s vs 78 tok/s, mais le nombre de tokens devient le goulot. Qualité proche, splits intéressants par tâche.
PewDiePie a publié Odysseus, une interface web/harness pour LLM locaux. Le créateur, sans formation informatique formelle (études en ingénierie mécanique), offre une perspective non-développeur sur l'accessibilité des modèles locaux.
Odysseus est un espace de travail IA auto-hébergé. Le projet propose une alternative open-source aux plateformes cloud propriétaires pour exécuter des modèles et workflows IA localement.
CVPR Workshop Radar agrège les ateliers et tutoriels de CVPR 2026 dans une interface web consultable. Recherche par titre/organisateur/sujet, filtrage par date/type/disponibilité du programme, calendrier personnel, vue timeline. Pipeline automatisé : extraction PDF → scraping → traitement LLM. Open source, hors ligne, sans compte.
Un utilisateur rapporte qu'ajouter une RTX 2070 Super (8 GB VRAM) à son système haute-end (RTX 5090, 9800X3D, 96 GB RAM) lui permet de faire tourner Qwen 3.6-27B en Q8_0 avec contexte 144k à 40-70 tok/s. Conclusion : plus de VRAM > meilleures perfs brutes pour l'inférence locale.
Bonsai Image 4B est un modèle de génération d'images quantifié en 1-bit, conçu pour fonctionner sur appareils locaux. Le modèle compresse les poids à 1 bit pour réduire drastiquement la taille et les besoins en calcul, permettant l'inférence sur hardware limité.
mlx-Chronos est un outil CLI open-source et un leaderboard communautaire pour comparer les moteurs d'inférence MLX sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Il mesure TTFT, throughput, RAM et état thermique avec méthodologie standardisée. Leaderboard actuellement alimenté par un M2 8GB, cherche résultats M3/M4.
Étude sur la capacité des bots IA à ignorer les preuves scientifiques. Les modèles actuels ne suivent pas systématiquement les données empiriques, soulevant des questions sur leur fiabilité pour la recherche scientifique.
Vercel AI Chat SDK ajoute le support de Lark et Feishu via un nouvel adaptateur officiel. Les bots peuvent poster, éditer et supprimer des messages, streamer des réponses via l'API cardkit typewriter de Lark, envoyer des cartes interactives et réagir avec des emojis. La connexion utilise le transport WebSocket de Lark.
Comparaison systématique de 13 variantes ablitérées de Gemma 4 E2B sur 44 GPU-heures. coder3101 atteint 96% ASR (refusals) sans perte de capacités et surpasse le modèle de base en math. Les approches chirurgicales préservent mieux les performances que les méthodes agressives, certaines perdant jusqu'à 6.9 points sur GSM8K.
Développeur open-source un accélérateur IA sur FPGA (AWS F2) basé sur RocketChip/RISC-V avec mécanisme d'attention intégré au silicium. Benchmarks : 225× speedup attention vanilla, 96× TinyBERT, 50× ViT, 30× GPT-2 prefill. Support BF16 natif.
Un utilisateur a construit un boîtier de refroidissement DIY pour 2 DGX Spark en utilisant un modèle Thingiverse imprimé en 3D (PETG). Il a ajouté un ventilateur 120mm contrôlé par thermostat via un contrôleur AC Infinity avec sonde de température pour gérer automatiquement la vitesse du ventilateur selon la chaleur générée par le clustering.
Hermes WebUI est une interface web pour utiliser Hermes Agent depuis un navigateur ou un téléphone. Projet open-source sur GitHub Trending.
Pi-subagents est une extension pour déléguer des tâches à des sous-agents asynchrones avec troncature, artefacts et partage de session. Projet open-source sur GitHub Trending.
AppFlowy-Cloud est un espace de travail collaboratif open-source avec IA intégré, alternative à Notion. Permet de gérer projets, wikis et équipes tout en conservant le contrôle des données.
Arnis est un outil qui génère des emplacements réels du monde dans Minecraft avec un haut niveau de détail. Le projet utilise des modèles d'IA pour convertir des données géographiques en structures Minecraft.
Golem Cloud est une plateforme agent-native pour construire des agents IA et applications distribuées sans perte d'état, sans duplication de travail, sans infrastructure à gérer.
Sandcastle est une bibliothèque TypeScript pour orchestrer des agents de codage en sandbox. Elle permet d'exécuter du code isolé via sandcastle.run().
Pi-subagents est une extension pour déléguer des tâches à des sous-agents asynchrones avec troncature, artefacts et partage de session. Outil open-source pour orchestration d'agents.
Cours open-source sur la construction d'agents RAG en production. Couvre l'architecture, les patterns d'implémentation et les bonnes pratiques pour déployer des systèmes agentic retrieval-augmented generation.
ComfyUI est une interface graphique modulaire pour les modèles de diffusion, offrant une API et un backend basés sur un système de nœuds et graphes pour la génération d'images.
Hermes WebUI offre une interface web et mobile pour utiliser Hermes Agent. Projet open-source sur GitHub Trending.
Kaikaku.AI lance Epicure, trois modèles IA distinguant les ingrédients compatibles par recette ou chimie. Entraînés sur 4,14 millions de recettes multilingues et FlavorDB, ils recommandent différemment selon leur source. Le modèle chimique seul classe mieux goût et valeurs nutritionnelles sans données directes.
Discussion sur les défis de production des modèles de diffusion : gestion des pics de charge GPU, démarrages à froid et coûts d'inférence. Passage de 100 à 10k requêtes révèle des problèmes d'architecture et de multi-tenancy.
Un utilisateur Reddit rapporte que DeepSeek v4 Pro obtient 8% de réussite sur le benchmark DeepSWE, contrastant avec sa perception d'une performance proche de Claude Sonnet 4.6 en pratique. Le lien vers le benchmark DeepSWE est fourni.
Stepfun 3.7 Flash offre une qualité proche de GLM 5.1 avec 80% de compréhension 3D, tout en consommant 75% moins de paramètres et intégrant la vision native. Recommandé pour les contraintes RAM.
Optimisation Flash Attention pour llama.cpp sur GPU RDNA3 : réduction de 47% de la VRAM KV par rapport à Vulkan f16. Packing 8-bit des K-values dans instructions GPU natives sudot4, sans quantization lossy. À 128k contexte avec MTP draft : 21.76 GiB vs 23.18 GiB (gain 1.42 GiB). Qualité préservée : KLD moyen 0.00455 (q4_0 V), 97.06% top-token identiques.
Un utilisateur partage un script Tampermonkey pour ajouter un bouton de basculement du raisonnement (thinking) dans l'interface web de llama.cpp avec Qwen 3.6. Le script intercepte les requêtes API et contrôle le paramètre enable_thinking sans modifier le code source compilé quotidiennement.
Bloc est un gestionnaire de paquets open-source pour modèles IA locaux, agents et outils. Il empaquète des configurations complètes (modèle, runtime, dépendances, variables d'environnement) en recettes versionnées exécutables via CLI. Comparable à npm pour les workloads IA, avec détection matérielle et gestion automatique des dépendances.
Anthropic interdit les outils IA lors des entretiens d'embauche pour évaluer la réflexion réelle des candidats. Jusqu'à cinq rounds testent compétences, valeurs et éthique. Salaires jusqu'à 850 000 $. Des candidats paient 4 600 $ pour du coaching de préparation anonyme fourni par des employés actuels.
Benchmark llama.cpp comparant Windows 11 et Linux (Ubuntu 26.04) sur GPU Nvidia (RTX 5080 + 2× RTX 5060 Ti). Aucune différence significative de performance : Qwen 3.5 122B atteint PP 300/TG 28 (Windows) vs PP 290/TG 28.5 (Linux) ; Qwen 3.5 397B : PP 140/TG 16 vs PP 150/TG 15.2. Tests répétés 4 fois avec llama.cpp récent incluant optimisation VRAM.
PolyRange est un benchmark de cybersécurité IA générant dynamiquement des cibles web fraîches pour chaque évaluation, éliminant la contamination de corpus d'entraînement. L'auteur adresse le consensus des labs (Anthropic, OpenAI, DeepMind) : les benchmarks statiques sont saturés et les défenses réelles manquent. MIT-licensed, indépendant du projet commercial de l'auteur.
Une étude Anthropic révèle que les chercheurs aux noms typiquement masculins utilisent les agents de codage IA plus de deux fois plus souvent que ceux aux noms féminins, à discipline et niveau de carrière égaux. Les économistes en tête (39%), les chercheurs en éducation à 4%. L'écart de genre pour les agents de codage dépasse celui de l'IA générale.
SoftBank prévoit de construire des data centers IA de 5 GW en France pour jusqu'à 75 milliards d'euros, son plus grand investissement en infrastructure IA en Europe. 45 milliards d'euros d'installations doivent être opérationnels d'ici 2031 sur trois sites du nord de la France.
mlx-Chronos est un outil CLI open-source et leaderboard communautaire pour benchmarker les moteurs d'inférence LLM locaux sur Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama). Mesure TTFT, throughput, RAM, et état thermique avec méthodologie standardisée. Actuellement peuplé uniquement par résultats M2 8GB.
Les agents de recherche IA comme GPT-5.4 et Kimi K2.6 confirment surtout leurs connaissances d'entraînement au lieu de vraiment explorer le web. Des chercheurs de l'Institut de technologie de Harbin ont démontré cela avec LiveBrowseComp, un benchmark basé sur des événements des 90 derniers jours. Sans accès à la mémoire d'entraînement, les performances s'effondrent.
Nouvelle approche pour les agents IA autonomes : utiliser la mémoire comme action pour gérer le contexte sur des tâches longues. Le système sélectionne activement quelles informations conserver et utiliser, améliorant les performances sur des horizons étendus.
MiniMax M3, premier modèle de MiniMax avec fenêtre contextuelle de 1M tokens et multimodalité native, est désormais disponible sur Vercel AI Gateway. M3 excelle en ingénierie logicielle, utilisation d'outils en ligne de commande et navigation web agentique, optimisé pour la collaboration multi-tours.
Développeur crée un lecteur d'ebooks avec modèle de traduction embarqué basé sur llama.cpp. Application locale pour lecteurs multilingues : traduction IA, annotations, signets, critiques, recherche dans les notes. Utilise modèles compacts (4B-70B) sans dépendance cloud.
Komi-learn est un framework pour agents de codage avec mémoire continue et auto-amélioration. Le projet permet aux agents d'apprendre de leurs expériences passées et d'améliorer leurs performances au fil du temps.
Mudler publie des quantifications APEX GGUF du modèle Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled avec tête MTP (multi-token prediction) intégrée. Les fichiers activent le décodage spéculatif auto-contenu via llama.cpp sans modèle brouillon séparé. Taille +2,5% vs version non-MTP, tête MTP quantifiée Q8_0 pour précision de draft élevée.
Dell annonce un laptop XPS équipé du GPU NVIDIA N1X (basé sur DGX Spark GB10) destiné aux consommateurs sous Windows. Confirmation officielle à Computex.
Anthropic calcule son « run-rate revenue » en deux volets : les 28 derniers jours de ventes consommation × 13, plus les abonnements mensuels × 12. Cette métrique, rapportée par Reuters, soulève des questions sur la mesure réelle du chiffre d'affaires.
Utilisateur décrit son centre de données personnel : 4 systèmes (Threadripper 3960X + 4×3090 Ti, Xeon 8352 + 4×5070 Ti, Intel 14700K + 5090, Ryzen 5950X + 2×5070 Ti). Utilise Qwen 27B pour coding, Nemotron pour STT, entraîne LoRA TTS. Agents autonomes travaillent la nuit sur repos sans coût token.
Benchmark d'engines d'inférence sur M1 Max 64GB comparant rapid-mlx, omlx, mlx-lm et ollama avec Qwen 3.5-4B. Rapid-mlx obtient les meilleures performances en vitesse et efficacité mémoire. Résultats publiés sur le leaderboard mlx-chronos.
Des arnaqueurs utilisent des images générées par IA de personnes noires fictives pour promouvoir des produits Shein sur les réseaux sociaux. Pratique de marketing frauduleux exploitant la génération d'images et les biais raciaux.
Développeur crée un moteur d'inférence from scratch en Rust et Metal pour simplifier le déploiement local d'IA. L'app one-click intègre sélection de modèles, outils, MCP et support natif. Sortie repo + app prévue 1er juin, version gratuite et open-source.
Starbucks abandonne un outil IA de gestion d'inventaire défaillant incapable de compter correctement les stocks. Le système n'a pas atteint les objectifs opérationnels attendus.
Un utilisateur de r/LocalLLaMA soulève une incohérence : la communauté auto-héberge les modèles (partie la plus difficile) mais externalise les outils (tracing, evals, monitoring) vers des SaaS. Il argue que des solutions open-source (Langfuse, ragas, Open WebUI) permettent désormais d'héberger la stack complète localement sans appels externes.
Anthropic publie une documentation détaillée sur ses techniques de sandboxing pour Claude.ai, Claude Code et Cowork. Utilise gVisor (Claude.ai), Seatbelt/Bubblewrap (Claude Code local), et VMs complètes (Cowork). Inclut process sandboxes, limites filesystem et contrôles d'egress pour empêcher l'exfiltration de credentials.
Analyse TCO d'un serveur LLM local de 6400$ équipé de 4x MI100 32GB et CPU EPYC 48-core. Exécute 4 instances llama.cpp avec Qwen 3.6 27B sur ROCm. Traite 20.4M tokens input et 1.32M tokens output/jour. Coût API équivalent: 3701$/an (308$/mois). L'auteur souligne l'importance de l'amortissement matériel pour un TCO réaliste.
Simon Willison a utilisé Claude Opus 4.8 via Claude Code pour implémenter l'exécution d'applications Python ASGI dans le navigateur via Pyodide et Service Workers. Cette approche remplace la précédente basée sur Web Workers, permettant l'exécution de scripts JavaScript et corrigeant les limitations de Datasette Lite. Des démos fonctionnelles sont disponibles.
Utilisateur rapporte l'exécution réussie de Qwen 3.6 35B MoE sur M1 Max avec Zoo Code. Modèle MoE (mixture of experts) fonctionnant localement, sans connexion réseau, sur batterie.
Intel Optane DIMMs 768 Go permettent d'exécuter un LLM de 1 trillion de paramètres sur un seul GPU à 4 tokens/s. Configuration matérielle pour inférence de modèles très larges sans infrastructure distribuée.
Un million de fragments de textes grecs anciens seront traduits grâce à l'IA. Le projet utilise des modèles de vision et de traitement du langage pour déchiffrer des manuscrits endommagés et produire des traductions automatiques.
Un utilisateur de r/LocalLLaMA rapporte avoir créé un agent autonome avec Qwen 3.5 27B, amélioré par un système de mémoire court/long terme (fichier memory.md, résumés quotidiens, auto-réflexions). L'agent exécute des tâches complexes (création d'apps, recherche web, installation logicielle). L'utilisateur privilégie cette approche locale à GPT/Gemini pour l'expérience utilisateur, malgré une puissance inférieure.
Parallax est un mécanisme d'attention linéaire local paramétrisé pour les LLM, dérivé de la régression statistique. Il remplace l'estimation locale constante du softmax par une estimation linéaire, offrant de meilleurs compromis biais-variance. Prétraîné à 0.6B et 1.7B, Parallax montre des améliorations de perplexité cohérentes et surpasse FlashAttention 2/3 en décodage.
NVIDIA a quantifié le modèle Qwen3.6-35B-A3B d'Alibaba en NVFP4 (4 bits) via Model Optimizer. La réduction passe de 16 à 4 bits par paramètre, divisant par 3,06x la mémoire GPU et l'espace disque. Les benchmarks (MMLU Pro, GPQA Diamond, etc.) montrent une dégradation minimale : 85,6→85,0 sur MMLU Pro.
Un projet open source contient une instruction cachée destinée aux agents IA, les ordonnant de supprimer le code. Découverte révélant les risques de sécurité liés à l'exécution automatisée de code par les systèmes IA.
OpenRouter lève 113 millions de dollars en Series B. La plateforme d'agrégation d'API LLM renforce son financement pour étendre son offre de modèles et ses capacités d'infrastructure.
SupraLabs a publié Supra-50M-Instruct, un modèle de 51,8M paramètres qui atteint la #1 des tendances Hugging Face (catégorie <1B). 7,65k téléchargements en 9 jours, surpassant Gemma-3-1B et Qwen3-0.6B. Démontre l'intérêt pour les modèles légers exécutables sur hardware modeste.
Microsoft et Nvidia s'associent pour des PC IA exécutant des agents autonomes localement via OpenClaw, remplaçant Copilot+. Dell et Surface dévoileront les premiers modèles à Computex et Build la semaine prochaine.
Un chercheur demande comment fine-tuner un LLM pour résoudre des problèmes mathématiques ouverts (preuves). SFT et RLHF classiques insuffisants ; cherche méthode adaptée avec dataset MathNet.
Méthode directe pour entraîner un LLM de zéro : téléchargement de données, prétraitement et génération de texte. Repo GitHub avec code exécutable.
Anthropic publie un dépôt public pour les Agent Skills, des composants réutilisables destinés aux agents IA. Le projet facilite le développement et le partage de capacités d'agents standardisées.
Vite+ est une chaîne d'outils unifiée pour le développement web qui centralise runtime, gestionnaire de paquets et toolchain frontend en un seul point d'entrée.
Stalwart est un serveur mail et collaboration tout-en-un open-source supportant IMAP, JMAP, SMTP, CalDAV, CardDAV et WebDAV. Conçu pour être sécurisé et scalable.
Zenoh est un middleware open-source unifiant la publication/souscription, le stockage distribué, les requêtes et les calculs. Il optimise l'efficacité temporelle et spatiale au-delà des stacks mainstream.
Qwerty-learner est un logiciel d'apprentissage de vocabulaire et d'entraînement de la mémoire musculaire en anglais, conçu spécifiquement pour les travailleurs au clavier. Combine mémorisation de mots et pratique de dactylographie.
Apache Airflow est une plateforme open-source pour créer, planifier et surveiller des workflows de manière programmatique. Elle permet l'orchestration de pipelines de données complexes avec gestion des dépendances et monitoring en temps réel.
Une étude à grande échelle (208 000 participants, 26 millions de réponses) montre que l'entraînement rendant les modèles de langage utiles affaiblit leur capacité à reproduire le comportement humain. L'effet s'aggrave à chaque génération. Les profils démographiques (persona trick) n'apportent aucun bénéfice significatif.
Utilisateur rapporte 125 tokens/s avec Qwen 3.6 quantifié Q4 sur 2x RTX 4060 Ti (~1000$, 32GB VRAM). Performance supérieure aux mini-PC haut de gamme 2026 pour fraction du coût. Teste l'optimisation CUDA 13.3 pour atteindre 150 tok/s.
Deux étudiants ML questionnent l'hypothèse que la robotique souffre d'une pénurie de données. Après normalisation de datasets publics, ils suspectent que le vrai problème est l'interopérabilité : schémas hétérogènes, capteurs différents, cadres de coordonnées incompatibles. Ils demandent aux équipes robotique si elles utiliseraient réellement des données d'autres équipes via une API unifiée.
Les grandes entreprises américaines commencent à rationner l'utilisation de l'IA en raison de l'explosion des coûts d'infrastructure et d'API. Les budgets d'IA deviennent des goulots d'étranglement, forçant les organisations à prioriser les cas d'usage et à limiter l'accès aux modèles coûteux.
Terence Tao estime que l'IA pourrait introduire la division du travail en mathématiques pour la première fois. Actuellement, les chercheurs maîtrisent chaque étape seul (formulation, vérification). Tao anticipe une « mathématique industrielle » : équipes IA-supportées au lieu de génies isolés, humains restant essentiels pour les « intuitions inspirées ».
Helios est un outil qui estime la production solaire potentielle pour n'importe quelle adresse en Grande-Bretagne. Utilise des données géographiques et météorologiques pour calculer le rendement des panneaux solaires résidentiels.
Des attaquants exploitent les fonctionnalités de partage de conversations de ChatGPT et Claude pour distribuer des malwares. Les chats contrefaits imitent des messages d'erreur ou guides d'installation et contournent les outils de sécurité en étant hébergés sur des domaines de confiance.
OpenAI déploie Codex sur Windows 11 avec une fonction « Computer Use » permettant à l'IA de contrôler autonomement les programmes, tester des applications et détecter des bugs. L'app ChatGPT mobile permet de lancer et surveiller ces tâches à distance.
Gryphe publie Pantheon-Reasoning-27B, un modèle Qwen 3.6 27B non-censuré fine-tuné sur données de roleplay avec traces de raisonnement complètes. Entraîné sur corpus Pantheon (~28%), traces Claude Opus 4.6 (~21%), données WorldSim (~16%) et aventures textuelles (~16%), le modèle teste si le raisonnement améliore la qualité du roleplay. GGUF disponibles.
Projet open-source permettant de générer des effets sonores à partir d'imitations vocales et de texte. L'utilisateur enregistre une imitation du son désiré, le modèle la combine avec une description textuelle pour produire l'effet audio final. Démo disponible sur le repo GitHub.
Salesforce affirme avoir migré son infrastructure vers Claude Code (Anthropic) en 13 jours au lieu de 231 jours prévus, avec 79% plus de pull requests par développeur et 5% moins d'incidents en avril 2026. Les chiffres ne sont pas vérifiables indépendamment.
Vidai Community, binaire Rust open-source, unifie cost attribution, guardrails et multi-provider routing pour appels LLM. Intégration one-line via changement base_url (OpenAI/Anthropic/Google). Attribution de coûts par user/team/model, budgets hard, overhead 1.95ms, 21,803 RPS sur single node.
Développeur a créé NeuralDBG, un debugger PyTorch qui détecte automatiquement les défaillances d'entraînement (gradients qui s'évanouissent/explosent, anomalies de données). Insight clé : les défaillances sont localisées par couche, pas globales. Monitoring efficace : transitions de normes de gradient par couche plutôt que histogrammes bruts. Outil open-source sur PyPI.
Meta prépare des appareils portables IA : un pendentif IA et des lunettes « supersensing » pour l'entreprise. Après des milliards investis en IA sans retour commercial significatif, la stratégie open-source n'a pas décollé. Meta pivote vers le matériel.