juin 2026

2731 articles

User as Engram: Internalizing Per-User Memory as Local Parametric Edits

Nouvelle approche de personnalisation LLM : stocker les faits utilisateur comme édits locaux dans une table mémoire hashée (Engram) plutôt que via LoRA global. Réduit l'empreinte mémoire de 33 000x, améliore la précision du raisonnement indirect de 5,6x en moyenne, et permet de stacker plusieurs utilisateurs sans contamination croisée.

Fine-tuning Raisonnement Papers

SIG

HYP

Reddit r/LocalLLaMA·18 juin

CEOs of Anthropic and Google DeepMind call for U.S.-led AI coalition in meeting at G7

Dario Amodei (Anthropic) et Demis Hassabis (Google DeepMind) ont appelé à la formation d'une coalition IA dirigée par les États-Unis lors d'une réunion du G7. Les deux dirigeants ont plaidé pour une coordination internationale face aux enjeux géopolitiques de l'IA.

Anthropic DeepMind Régulation

SIG

HYP

Hacker News (AI)·18 juin

[x86] AI Compute Extensions (ACE) Specification

Intel publie la spécification x86 AI Compute Extensions (ACE), une extension d'instruction pour accélérer les workloads IA sur processeurs x86. Détails techniques et implémentation disponibles dans la documentation officielle.

Infrastructure Benchmarks

SIG

HYP

Reddit r/MachineLearning·18 juin

Open-Source Hong Kong Horse Racing ML Pipeline — Feedback Welcome [P]

Pipeline ML open-source pour prédiction de courses hippiques à Hong Kong (HKJC). Utilise LightGBM/XGBoost avec validation hors-échantillon, simulations de paris (Quinella, Tierce, Quartet) et critère de Kelly. Résultat clé : le modèle sans cotes surpasse celui avec cotes en ROI Quinella, suggérant une inefficacité de prix sur certaines combinaisons.

Open source Benchmarks Outils

SIG

HYP

Hacker News (AI)·18 juin

Noam Shazeer is joining OpenAI

Noam Shazeer, co-fondateur de Character.AI et ancien chercheur Google, rejoint OpenAI. Pas de détails sur son rôle ou ses responsabilités.

OpenAI

SIG

HYP

Simon Willison·17 juin

GLM-5.2 is probably the most powerful text-only open weights LLM

Z.ai a publié GLM-5.2 (753B paramètres, 40 actifs en MoE) sous licence MIT le 16 juin. Modèle texte uniquement avec fenêtre de contexte de 1M tokens. Classé 1er sur l'Artificial Analysis Intelligence Index v4.1 (score 51) devant DeepSeek V4 Pro et Kimi K2.6. 2e sur Code Arena WebDev derrière Claude Fable 5.

Open source Benchmarks Génération de code

SIG

HYP

Hacker News (AI)·17 juin

License Plate Cameras Will Soon Track Phones, Wearables, Infotainment and Pets

Des caméras de lecture de plaques d'immatriculation vont bientôt tracker les téléphones, appareils portables, systèmes d'infodivertissement et animaux de compagnie via Bluetooth et WiFi. Technologie de surveillance de masse en développement.

Sécurité IA Régulation

SIG

HYP

Reddit r/LocalLLaMA·17 juin

llama.cpp now supports model management (downloading etc) via API

llama.cpp intègre la gestion de modèles via API (PR #23976). Téléchargement et chargement/déchargement à la demande depuis un répertoire. Interface utilisateur prévue. Déploiement et gestion du cycle de vie complets via API seule.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·17 juin

I released Inflect-Nano, an ultra-extreme tiny 4.63m parameter TTS model.

Inflect-Nano-v1, modèle TTS de 4.63M paramètres, est le 2e plus petit modèle de synthèse vocale public. Composé d'un modèle acoustique (3.46M) et d'un vocoder (1.17M), il génère de l'audio 24 kHz en anglais. ~17x plus petit que Kokoro, ~108x plus petit que Chatterbox. Exécutable localement en PyTorch, adapté aux appareils embarqués et assistants vocaux hors ligne.

Voix Open source Outils

SIG

HYP

Hacker News (AI)·17 juin

Leaked financial docs show OpenAI is losing billions of dollars a year

Des documents financiers divulgués révèlent qu'OpenAI perd des milliards de dollars annuels. Les coûts d'infrastructure et de R&D dépassent les revenus actuels, soulevant des questions sur la viabilité du modèle économique.

OpenAI Business

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Lin Junyang AI Lab Closes Round at $2B Valuation

Le laboratoire IA de Lin Junyang lève des fonds à une valorisation de 2 milliards de dollars. Lin Junyang, responsable de la ligne Qwen, lance un nouveau projet. La communauté open source anticipe des contributions significatives.

Qwen Open source Financements

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GLM 5.2 Release Video [Made with GLM 5.2]

GLM 5.2 génère des vidéos via Remotion, comparable à Fable mais inférieur à Gemini 3.1 Pro. Surcharge serveurs observée sur OpenRouter avec timeouts sur sorties longues.

Génération de vidéos Gemini Qwen

SIG

HYP

Hacker News (AI)·17 juin

I scored 200 blockchain NPM packages for deprecation and hijack risk

Audit de sécurité de 200 packages NPM liés à la blockchain : évaluation des risques de dépréciation et de détournement. Méthodologie de scoring appliquée à l'écosystème des dépendances critiques.

Sécurité IA Open source

SIG

HYP

Hacker News (AI)·17 juin

The hacker sent by Anthropic to calm the government's nerves about AI safety

Anthropic envoie un expert en sécurité IA auprès des gouvernements pour rassurer sur les risques de l'IA. L'initiative vise à établir un dialogue direct entre l'entreprise et les régulateurs sur les enjeux de sécurité et d'alignement.

Anthropic Sécurité IA Régulation

SIG

HYP

The Decoder·17 juin

Microsoft researcher builds a working neural network out of goats in Age of Empires II to critique AI science

Un chercheur Microsoft a construit un réseau de neurones fonctionnel avec des chèvres dans l'éditeur de cartes d'Age of Empires II pour critiquer les méthodes de recherche en IA. Son analyse de 315 papiers montre que plus de 50% présupposent déjà que les modèles de langage ont des traits humains avant l'expérience.

Papers Alignement Évaluations

SIG

HYP

Reddit r/LocalLLaMA·17 juin

US holds off blacklisting China's DeepSeek, more than 100 firms deemed security risks, sources say

Les États-Unis ne placent pas DeepSeek sur liste noire mais identifient plus de 100 entreprises chinoises comme risques de sécurité. Décision politique face aux tensions commerciales et technologiques sino-américaines.

DeepSeek Régulation Business

SIG

HYP

Reddit r/LocalLLaMA·17 juin

PSA: unsloth/GLM-5.2-GGUF is uploading

Unsloth a créé un dépôt HuggingFace pour GLM-5.2 GGUF il y a 30 minutes. Seul le README est présent pour l'instant ; les fichiers GGUF seraient en cours de téléchargement.

Open source Outils

SIG

HYP

Reddit r/MachineLearning·17 juin

Contrastive targeted SFT as a mechinterp method - has anyone mapped causal dependency interactions this way? [D]

Chercheur teste une approche itérative combinant SFT ciblée et interprétabilité mécanique sur un modèle 31B. Stratégie : entraînement contrastif sur des dimensions de capacité spécifiques, puis ablation des circuits pour cartographier les dépendances causales entre dimensions et optimiser l'ordre d'entraînement futur.

Fine-tuning Raisonnement Évaluations

SIG

HYP

Reddit r/LocalLLaMA·17 juin

i post-trained a model to reliably roll a die

Un utilisateur a post-entraîné un modèle pour simuler correctement un lancer de dé (chaque face ~1/6), révélant que les LLM frontière (Claude, GPT, Kimi) répondent systématiquement « 4 ». Il utilise ce problème jouet pour explorer l'exploration en RL versus l'exploitation de stratégies connues.

Reinforcement learning Claude GPT

SIG

HYP

Reddit r/LocalLLaMA·17 juin

llama.cpp - how to free up even more space on your GPU

llama.cpp optimise la gestion mémoire GPU. Les paramètres clés : --no-mmproj-offload libère 1GB pour modèles vision, --cache-type-k/v réduit KV cache de 50-75%, --spec-draft-n-max=2 optimise speculative decoding. Flash attention activé par défaut. Testé sur Qwen 3.6-27B avec contexte 150k sur RTX 3090.

Llama Open source Infrastructure

SIG

HYP

The Decoder·17 juin

Amazon, Nvidia, and AMD bet $310 million on AI startup building 3D world models

Amazon, Nvidia et AMD investissent 310 millions de dollars dans Odyssey ML, startup de modèles 3D du monde, valorisée à 1,45 milliard. Le fonds IQT et Jeff Dean (Google) participent au tour. Les world models deviennent le prochain pari majeur après les modèles de langage.

Financements Raisonnement Vision

SIG

HYP

Reddit r/LocalLLaMA·17 juin

We built an open source UI kit for document RAG/agents

Extend publie un kit UI open source (MIT) pour RAG et agents documentaires : 15 composants pour visualiser PDF, DOCX, XLSX avec citations par bounding box, upload de fichiers, e-signature. Construit en interne, éprouvé sur millions de pages/jour, maintenu activement.

RAG Agents IA Open source

SIG

HYP

Reddit r/LocalLLaMA·17 juin

My GLM-5.2-FP8 HGX-H200 SGLang docker deploy config

Configuration Docker pour déployer GLM-5.2-FP8 sur HGX-H200 avec SGLang. Atteint 70 tokens/s et 262k contexte en désactivant DP et moe-a2a-backend deepep, avec mem-fraction-static à 0.83. Les recettes vLLM officielles incompatibles avec H200.

Qwen Génération de code Infrastructure

SIG

HYP

Latent Space·17 juin

🔬 The Self-Driving Lab — Joseph Krause, Radical AI

Joseph Krause (Radical AI) argumente que l'avantage compétitif en science des matériaux réside dans le laboratoire automatisé, pas dans le modèle IA. Les capacités expérimentales et l'infrastructure physique constituent le véritable moat.

Agents IA Robotique

SIG

HYP

Hacker News (AI)·17 juin

AI chemist improves a challenging reaction in medicinal chemistry

Un système d'IA chimiste optimise une réaction difficile en chimie médicinale. L'approche combine modélisation prédictive et expérimentation automatisée pour améliorer les rendements de synthèse.

Benchmarks Outils

SIG

HYP

The Decoder·17 juin

Zhipu AI's GLM-5.2 closes in on closed-source leaders in coding marathons

Zhipu AI publie GLM-5.2 sous licence MIT avec contexte stable de 1 million de tokens. Sur FrontierSWE (benchmark de tâches de codage longues), le modèle open-source ne traîne que d'1 point derrière Claude Opus 4.8 d'Anthropic. Retard significatif sur le reasoning face aux modèles fermés.

Open source Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face

LoopCoder-V2 est un modèle de code 7B basé sur Parallel Loop Transformer (PLT) qui améliore les performances par calcul au test-time via deux passes de blocs Transformer partagés. Entraîné sur 18T tokens de données mixtes texte/code, il atteint 64.4 sur SWE-bench Verified (vs 43.0 baseline), avec deux boucles comme optimum gain-coût.

Génération de code Raisonnement Benchmarks

SIG

HYP

Simon Willison·17 juin

Quoting Charity Majors

Charity Majors observe qu'en 2025, l'économie de la production de code s'est inversée : générer du code est devenu quasi gratuit et instantané au lieu d'être coûteux et chronophage. Les lignes de code, autrefois précieuses et réutilisées, sont devenues jetables et régénérables du jour au lendemain.

Génération de code Prompt engineering

SIG

HYP

Hacker News (AI)·17 juin

Only 16 Percent of Americans Think AI Will Have a Positive Impact on Society

Sondage : 16% des Américains pensent que l'IA aura un impact positif sur la société. La majorité exprime des préoccupations sur les effets économiques et sociétaux, tandis que les experts restent plus optimistes.

Sécurité IA Régulation

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5

Gemma 4 E2B tourne en navigateur à 255 tokens/sec via kernels WebGPU optimisés par Fable 5. Demo et kernels disponibles sur Hugging Face.

Gemini Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité d'agents IA à construire des jeux jouables end-to-end dans un moteur de jeu réel. Benchmark teste Opus-4.7, GPT-5.5, Kimi-K2.6, DeepSeek-V4-Pro et autres. Absence de résultats pour modèles médium (27B-31B).

Agents IA Benchmarks Génération de code

SIG

HYP

Le Big Data·17 juin

Après cinq ans d’attente, Google officialise sa nouvelle enceinte connectée

Google officialise une nouvelle enceinte connectée après cinq ans d'absence du marché. Le produit sera disponible dans les jours à venir.

DeepMind

SIG

HYP

Hacker News (AI)·17 juin

Launch HN: Adam (YC W25) – Open-Source AI CAD

Adam est un logiciel CAO open-source alimenté par l'IA, lancé par une startup YC W25. Le projet vise à automatiser la conception assistée par ordinateur via des modèles d'IA.

Open source Outils Génération de code

SIG

HYP

Vercel AI Blog·17 juin

Vercel Ship 2026 recap

Vercel présente son infrastructure agent-first lors de Ship 2026 à Londres. Trois composants clés : Agent Stack (primitives pour agents), Vercel Connect (accès sécurisé aux outils externes sans tokens persistants), et eve (framework open-source pour agents en production avec exécution durable, compute sandboxé, approbations et évals).

Agents IA Infrastructure Outils

SIG

HYP

Hugging Face Blog·17 juin

MolmoMotion: Language-guided 3D motion forecasting

Hugging Face présente MolmoMotion, un modèle de prévision de mouvement 3D guidé par le langage naturel. Le système combine vision et langage pour anticiper les trajectoires futures à partir de vidéos, ouvrant des applications en robotique et animation.

Vision Robotique

SIG

HYP

Hacker News (AI)·17 juin

Agentic coding deserves more than a chat box bolted onto VS Code

Un article critique sur l'intégration des agents de code dans VS Code via simple chat. L'auteur argue que les outils actuels manquent de profondeur pour exploiter le potentiel des systèmes agentic et demandent une refonte architecturale des éditeurs.

Agents IA Génération de code Outils

SIG

HYP

Reddit r/LocalLLaMA·17 juin

TRELLIS.2 now runs natively on MLX (Image to 3d object model)

Port natif MLX de TRELLIS.2 (Microsoft) pour Apple Silicon. Génération d'objets 3D à partir d'images en 512×512 (~70s) et 1024×1024 (~300-700s) sur M4 Max. Repo GitHub disponible.

Open source Outils Infrastructure

SIG

HYP

Reddit r/MachineLearning·17 juin

I deployed a GAN on a Raspberry Pi 4 and built a physical NFT minting device [P]

Déploiement d'un DCGAN 128×128 sur Raspberry Pi 4 connecté à un ESP32. Modèle entraîné 800 epochs sur M3 (4h), 2480 images, exporté en ONNX (53MB). Inférence 3s/image. Génère des visages hybrides avec titres aléatoires. Présenté comme installation artistique à NYC.

Génération d'images Open source Outils

SIG

HYP

The Decoder·17 juin

Nvidia research shows robots that train themselves through AI coding agents

Des chercheurs de Nvidia, Carnegie Mellon et UC Berkeley utilisent des agents IA de codage pour enseigner aux robots la préhension dextère en conditions réelles. Une flotte de huit robots atteint 99% de succès sur des tâches complexes.

Agents IA Génération de code Robotique

SIG

HYP

The Decoder·17 juin

OpenAI researchers want to predict how often AI models will fail before launch

Des chercheurs d'OpenAI proposent une méthode pour prédire la fréquence des erreurs d'un modèle IA après son lancement. Cette approche comblerait les lacunes des tests de sécurité standards.

OpenAI Évaluations Sécurité IA

SIG

HYP

Hacker News (AI)·17 juin

AI demands more engineering discipline. Not less

Un article plaidant pour une plus grande rigueur d'ingénierie dans le développement IA, contre la tendance à minimiser les standards techniques. Critique l'approche « move fast and break things » appliquée aux systèmes critiques.

Sécurité IA Alignement

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Making budget models punch above their weight with a smart Rust harness

Un développeur Rust optimise les petits modèles de langage via une architecture système efficace. La harness Rust améliore les performances d'inférence sans modifier les poids du modèle, permettant aux modèles budget de rivaliser avec des versions plus grandes.

Open source Infrastructure Outils

SIG

HYP

Le Big Data·17 juin

DeepSeek réalise une levée géante de plus de 7 milliards de dollars

DeepSeek complète une levée de fonds de plus de 7 milliards de dollars, parmi les plus importantes du secteur IA. Montant record pour la startup chinoise spécialisée dans les modèles de langage.

DeepSeek Financements Business

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GLM-5.2 is a win for local AI

GLM-5.2 (744B) sous licence MIT représente une avancée pour l'IA locale malgré son empreinte massive. La communauté pourra distiller ses capacités de raisonnement dans des modèles 8B/70B, améliorant significativement les setups locaux.

Open source Fine-tuning Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Headless screenshot loops let a local 30B agent finish a raytraced FPS demo in pure C

Un agent local Qwen 27B a complété une démo FPS raytraced en C pur en utilisant des boucles de screenshots headless pour déboguer visuellement. L'ajout d'un mode headless permettant à l'agent de capturer des frames et d'inspecter les résultats a transformé l'approche : le modèle a appris à automatiser le débogage visuel récursif.

Qwen Agents IA Génération de code

SIG

HYP

Reddit r/LocalLLaMA·17 juin

I released a local LLM-powered RPG where generated NPCs, locations, items, and quests persist as in-game objects

Développeur lance un RPG local où les PNJ, lieux, objets et quêtes générés par LLM persistent comme objets de jeu. Le système gère l'inventaire et le combat tandis que le LLM génère dialogues, narration et progression. Les éléments générés sont stockés et réutilisables.

Open source Outils Agents IA

SIG

HYP

Reddit r/LocalLLaMA·17 juin

SIQ-1 Qwen3.6 for autoresearch and autonomous agency

SIQ-1 Qwen3.6 : fine-tuning PPO du Qwen-35B-A3 surpassant GLM-5.2 et Qwen-350B sur autoresearch (karpathy benchmark) et bullshit-bench. Modèle + GGUF disponibles sur HuggingFace avec agent démo.

Qwen Reinforcement learning Agents IA

SIG

HYP

Hacker News (AI)·17 juin

Sixty percent of US consumers say 'AI' in brand messaging is a turnoff

60% des consommateurs américains trouvent rebutant le terme « IA » dans les messages marketing des marques. L'étude révèle une fatigue face au surbuzzage du mot-clé sans valeur ajoutée concrète.

Business

SIG

HYP

Le Big Data·17 juin

Streaming : Fox rachète Roku pour 22 milliards de dollars

Fox acquiert Roku pour 22 milliards de dollars, renforçant sa position dans le streaming vidéo. L'achat donne accès à une plateforme majeure de distribution de contenu.

Business

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-research /</span> timesfm

TimesFM est un modèle fondation préentraîné développé par Google Research pour la prévision de séries temporelles. Le repo GitHub propose une implémentation open-source de ce modèle spécialisé.

DeepMind Open source Benchmarks

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> yairm210 /</span> Unciv

Unciv est un remake open-source d'Android/Desktop de Civilization V. Projet communautaire sans lien officiel avec Firaxis Games.

Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> DeusData /</span> codebase-memory-mcp

Serveur MCP d'intelligence de code haute performance. Indexe les bases de code dans un graphe de connaissances persistant en millisecondes. Support de 158 langages, requêtes sub-ms, 99% moins de tokens. Binaire statique unique, zéro dépendance.

MCP Génération de code RAG

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> bytedance /</span> UI-TARS-desktop

ByteDance publie UI-TARS-desktop, une stack open-source d'agents IA multimodaux. Le projet connecte modèles IA avancés et infrastructure d'agents pour automatiser des tâches d'interface utilisateur.

Agents IA Multi-agents Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> calesthio /</span> OpenMontage

OpenMontage est un système de production vidéo open-source et agentic avec 12 pipelines, 52 outils et 500+ compétences d'agent. Transforme un assistant de codage IA en studio de production vidéo complet.

Agents IA Multi-agents Génération de vidéos

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> continuedev /</span> continue

Continue est un agent de codage open-source disponible sur GitHub Trending. Le projet propose une solution d'assistance au développement logiciel.

Agents IA Génération de code Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Lampese /</span> codex-switcher

Lampese/codex-switcher est une application desktop pour gérer plusieurs comptes OpenAI Codex CLI. Outil open-source facilitant le basculement entre comptes.

OpenAI Génération de code Outils

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> bytedance /</span> UI-TARS-desktop

ByteDance publie UI-TARS-desktop, une stack open-source d'agents IA multimodaux connectant modèles IA et infrastructure d'agents. Plateforme pour construire des agents capables d'interagir avec interfaces utilisateur.

Agents IA Multi-agents Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> continuedev /</span> continue

Continue est un agent de codage open-source disponible sur GitHub Trending. Le projet propose une solution d'assistance au développement automatisée.

Agents IA Génération de code Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> openobserve /</span> openobserve

OpenObserve est une plateforme d'observabilité open-source couvrant logs, métriques, traces, monitoring frontend, pipelines et observabilité LLM. Alternative à Datadog/Splunk/Elasticsearch avec 140x moins de coûts de stockage et déploiement en binaire unique.

Open source Infrastructure Outils

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> infiniflow /</span> ragflow

RAGFlow est un moteur RAG open-source fusionnant retrieval-augmented generation et capacités d'agents pour créer une couche de contexte supérieure aux LLM.

RAG Agents IA Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> RD-Agent

Microsoft publie RD-Agent, un système d'IA autonome pour automatiser les processus R&D en data science et ML. L'agent pilote expériences, analyse de données et itérations de modèles sans intervention humaine.

Agents IA Multi-agents Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> calesthio /</span> OpenMontage

Agents IA Multi-agents Génération de vidéos

SIG

HYP

The Decoder·17 juin

Hyperscalers may soon be unable to fund their AI buildout from cash flow alone

Selon Epoch AI, Microsoft, Amazon, Alphabet, Meta et Oracle augmentent leurs dépenses en infrastructure IA de ~70% annuels contre 23% pour le cash-flow opérationnel. Les dépenses pourraient dépasser le cash-flow dès Q3 2026. Plusieurs géants explorent déjà des financements externes.

Business Infrastructure

SIG

HYP

Hugging Face Blog·17 juin

From the Hugging Face Hub to robot hardware with Strands Agents and LeRobot

Hugging Face et Strands intègrent des modèles du Hub avec LeRobot pour déployer des agents IA sur du matériel robotique. La plateforme permet aux développeurs d'utiliser des modèles pré-entraînés pour contrôler des robots physiques directement.

Agents IA Robotique Open source

SIG

HYP

OpenAI Blog·17 juin

A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry

OpenAI et Molecule.one démontrent qu'un chimiste IA quasi-autonome utilisant GPT-5.4 a amélioré une réaction clé en chimie médicinale, optimisant un processus de synthèse pharmaceutique.

GPT OpenAI Agents IA

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Local models went from mostly useless to actually useful really fast. What changed?

Les modèles locaux sont passés d'outils marginaux à des solutions viables en un an. Gemma, Qwen, GLM, Kimi remplacent désormais certains appels API pour le code, les documents privés et les workflows locaux, bien que le gap persiste sur les tâches complexes nécessitant planification et correction d'erreurs.

Llama Open source Qwen

SIG

HYP

Hacker News (AI)·17 juin

Show HN: I built 184 free browser tools – PDF, image, dev, AI tasks, no upload

Un développeur a créé 184 outils gratuits en ligne pour navigateur couvrant PDF, images, tâches de développement et IA, sans upload de fichiers vers serveur.

Outils Open source

SIG

HYP

Le Big Data·17 juin

HSBC et Google Cloud scellent un partenariat pour l’IA bancaire

HSBC et Google Cloud annoncent un partenariat pluriannuel pour déployer l'IA en production dans les opérations bancaires. L'accord couvre l'industrialisation de solutions IA sur l'infrastructure cloud de Google.

Business

SIG

HYP

Reddit r/LocalLLaMA·17 juin

A Year Building a Fully Local Home Voice Assistant · Fulloch

Un développeur a documenté 12 mois de travail pour construire un assistant vocal domestique local avec des modèles open-source, en remplacement d'Alexa. Retour d'expérience sur les approches qui ont fonctionné et les obstacles rencontrés.

Open source Voix Agents IA

SIG

HYP

Hugging Face Blog·17 juin

GLM-5.2: Built for Long-Horizon Tasks

Hugging Face annonce GLM-5.2, un modèle conçu pour les tâches longue portée. Le modèle améliore la capacité à traiter des contextes étendus et des workflows complexes multi-étapes.

DeepMind Raisonnement Benchmarks

SIG

HYP

Reddit r/MachineLearning·17 juin

Next-Latent Prediction Transformers [R]

Microsoft Research propose Next-Latent Prediction (NextLat), une méthode d'apprentissage auto-supervisé où les transformers prédisent leur propre état latent suivant. Cela améliore la compression de l'historique, l'efficacité des données et accélère l'inférence jusqu'à 3.3x via décodage spéculatif récursif.

Raisonnement Reinforcement learning Papers

SIG

HYP

Le Big Data·17 juin

Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son

xAI rend accessible Grok Imagine Video 1.5, son modèle de génération vidéo capable de produire des vidéos avec audio synchronisé.

Génération de vidéos

SIG

HYP

Reddit r/LocalLLaMA·17 juin

It looks like Rio 3.5 397B could've simply been a semi-failed embezzling of funding

Rio 3.5 397B, financé à hauteur de 100K USD, s'avère être un simple merge de modèles (Nex N2 Pro) sans entraînement supplémentaire, contrairement aux affirmations initiales basées sur Qwen 3.5 397B. Après découverte, l'équipe a modifié la documentation et prétend avoir perdu le modèle entraîné, soulevant des soupçons de détournement de fonds.

Open source Qwen

SIG

HYP

Reddit r/MachineLearning·17 juin

What is Speculative Decoding? (trending on paperswithco.de) [R]

Speculative Decoding est une technique d'optimisation d'inférence qui utilise un petit modèle rapide pour proposer plusieurs tokens futurs, vérifiés en parallèle par un modèle cible plus grand. SGLang a publié un blog détaillant comment atteindre des latences optimales pour l'inférence LLM avec Modal et les modèles DFlash de Z.ai.

Benchmarks Infrastructure

SIG

HYP

Le Big Data·17 juin

De nouveaux kits Shure pour moderniser Zoom Spaces

Shure et Zoom lancent de nouveaux kits pour Zoom Spaces, intégrant l'IA aux réunions. Les solutions modernisent l'expérience collaborative en salles de réunion.

Outils

SIG

HYP

Latent Space·17 juin

[AINews] GLM-5.2: the top Frontend Coding model in the world, IndexShare for Speculative Decoding

GLM-5.2 devient le meilleur modèle open-source pour le code frontend. Zhipu AI annonce aussi IndexShare, une technique de décodage spéculatif pour accélérer l'inférence.

Génération de code Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·17 juin

Mel AI just shared a demo of video-native AI characters that can talk, react, and respond to camera context in real time [N]

Mel AI démontre des personnages IA vidéo-natifs capables de parler, synchroniser les lèvres, réagir faciales et répondre en temps réel au contexte caméra. Le système détecte l'environnement visuel de l'utilisateur et adapte ses réactions. Cette approche dépasse le chat textuel de Character AI (fondé par d'anciens développeurs Google/LaMDA).

Agents IA Vision Voix

SIG

HYP

Vercel AI Blog·17 juin

Introducing Vercel Connect

Vercel Connect, en bêta publique, remplace les tokens longs durée stockés par un échange de credentials à l'exécution. Les agents obtiennent des credentials éphémères et limités au contexte de chaque tâche via des connecteurs réutilisables (Slack, GitHub, etc.), éliminant les risques de fuite de tokens permanents.

Agents IA Outils Infrastructure

SIG

HYP

arXiv cs.AI·17 juin

DiagFlowBench: Evaluating How Language Models Handle Off-Procedure Inputs in Grounded Diagnostic Dialogue

DiagFlowBench évalue comment les modèles de langage gèrent les requêtes hors-procédure dans le diagnostic industriel. Un dataset de 1 676 conversations multi-tours basées sur 50 flowcharts de diagnostic révèle que les modèles sélectionnent souvent une étape réelle mais inadéquate plutôt que d'halluciner, créant une vulnérabilité : des conseils plausibles mais incorrects.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

MathVis-Fine propose un cadre pour améliorer le raisonnement mathématique multimodal en modélisant les dépendances visuelles fine-grained. Un nouveau dataset annote les images avec des ratings de dépendance visuelle. Un entraînement progressif en deux étapes équilibre les récompenses de correction et de grounding visuel selon la nécessité réelle de chaque échantillon.

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

How Inference Compute Shapes Frontier LLM Evaluation

Étude sur 12 modèles frontière évaluant l'impact du compute d'inférence sur les performances. Trois interventions testées : budgets de tokens plus larges, compaction de contexte, tentatives répétées. Résultats : les budgets augmentés améliorent significativement les performances sur FrontierMath, Humanity's Last Exam, TerminalBench. Les évaluations à budget fixe sous-estiment les capacités des modèles récents.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Speaking in Self-Assessing Tongues: On the Verbalized Confidence of LLMs in Machine Translation

Étude de la fiabilité de la confiance verbalisée des LLM en traduction automatique. Cinq méthodes d'extraction de confiance par token sans accès aux signaux internes sont comparées aux probabilités prédites. Résultats : performance similaire pour la détection d'erreurs et la calibration, mais faible corrélation entre méthodes internes et verbalisées.

Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities

Étude de 4 434 posts et 50 338 commentaires sur Moltbook montrant que les indices de relations parasociales (langage d'intimité, offres de réciprocité, auto-identification) persistent dans les communautés d'agents IA autonomes. Les résultats, validés par keyword matching et annotation LLM, révèlent une association forte entre ces signaux et la ré-engagement de l'auteur original.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.CL·17 juin

AIPatient Arena: EHR-grounded evaluation of large language models in end-to-end clinical consultation workflows

AIPatient Arena évalue les LLM en consultation clinique multi-tours sur 8 dimensions via des graphes de connaissances EHR. Sur 437 patients, les modèles excellent en questionnement (4.43-4.99/5) et conduite éthique (4.38-4.93/5), mais échouent en diagnostic (2.63-3.55/5) et couverture informationnelle (2.08-3.02/5). Les faiblesses incluent répétitions, omissions d'antécédents, gestion insuffisante de l'incertitude.

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

EComAgentBench est un benchmark de 662 tâches e-commerce évaluant les agents LLM sur des intentions cachées distribuées entre requête, profil utilisateur et clarifications. Les exigences sont dispersées et l'agent doit les découvrir en moins de 100 appels d'outils. Le meilleur modèle atteint 57,1% de précision.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

Les chercheurs proposent « Equation-to-Behavior Prompting » pour guider les LLM à simuler différents modèles cognitifs humains (Bayésien, motivated reasoning, modèle α-β de Grether). Les grands modèles approximent ces spécifications par prompting, mais les petits modèles échouent. L'entraînement par RL réduit l'erreur de croyance de 26,5% et améliore les performances de 2,5–12% sur des jeux de persuasion légaux.

Raisonnement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·17 juin

DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL

DecoSearch est un framework sans entraînement pour la traduction texte-vers-SQL qui route les requêtes selon leur complexité. Un sélecteur de schéma élagué la base de données, un jugeur LLM décide si décomposition est nécessaire, et un DAG résout les sous-questions atomiques. Atteint 70,53% sur BIRD et 88,31% sur Spider avec DeepSeek, surpassant les baselines sans entraînement.

Génération de code Raisonnement RAG

SIG

HYP

arXiv cs.AI·17 juin

Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow

Workflow d'optimisation de sécurité piétonne orchestré par modèle de fondation. Intègre surrogate ML (R²=0.87), recherche évolutionnaire multi-objectif, générateur de géométrie et interface LLM. Réduit temps d'évaluation de heures à secondes ; produit 35 alternatives conformes en cas d'étude pare-chocs automobile.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

SEAGym: An Evaluation Environment for Self-Evolving LLM Agents

SEAGym est un environnement d'évaluation pour mesurer les mises à jour du harnais d'agents LLM auto-évolutifs (prompts, mémoire, outils, boucle interaction). L'étude compare ACE, TF-GRPO et AHE sur Terminal-Bench 2.0 et HLE, révélant que les mises à jour fréquentes ne garantissent pas l'amélioration en validation et que la diversité des données affecte la fiabilité.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification

Brick-DICL propose un framework de dynamic in-context learning en deux étapes pour classifier automatiquement les points BMS selon le schéma Brick (936 classes). Combine metadata-RAG et class-RAG pour enrichir les connaissances des LLMs, avec filtrage multi-modèles pour réduire l'effort de vérification manuelle.

RAG Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors

MapSatisfyBench est un benchmark pour évaluer les agents LLM intégrés aux services cartographiques. Il mesure leur capacité à identifier et satisfaire les besoins implicites des utilisateurs (facteurs de décision non explicités) à partir de données comportementales réelles. Les expériences montrent que les agents actuels réussissent bien sur les tâches explicites mais peinent à anticiper les facteurs implicites.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

Article arXiv proposant une architecture pour des réseaux d'agents autonomes distribués en peer-to-peer. Les auteurs identifient trois mécanismes clés : propagation sémantique pour la découverte de collaborateurs, identité vérifiable et réputation multi-sujets (MG-EigenTrust), et conception de mécanismes pour l'exécution de tâches ouvertes. Prototypes et simulations présentés.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.AI·17 juin

Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation

CEO-Bench, un benchmark multi-agent, évalue la capacité des LLM à prendre des décisions stratégiques de réallocation de ressources. Cinq modèles frontière testés sur 13 scénarios montrent une validité structurelle élevée mais divergent sur l'étalonnage stratégique. Les défaillances incluent la capture par un seul conseiller et l'amnésie historique.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

A homotopy-type-theoretic generalization of neurosymbolic inference

Article théorique proposant une généralisation des systèmes neurosymboliques via la théorie homotopique des types. Le cadre préserve les informations de symétrie et de preuves multiples, transformant les fonctionnelles classiques en cardinales homotopiques pondérées. Validation sur benchmarks MNIST avec meilleure calibration qu'un ensemble diversifié.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·17 juin

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

SpeechDx est un benchmark multi-tâches pour l'IA clinique basée sur la parole, couvrant 12 datasets et 27 tâches sur diverses conditions de santé. Les tâches sont structurées par étapes de production vocale (conceptualisation, formulation, articulation). L'évaluation de 12 encodeurs audio montre que les modèles de parole à grande échelle surpassent les modèles spécialisés, mais aucun ne généralise fiablement.

Benchmarks Voix Évaluations

SIG

HYP

Vercel AI Blog·17 juin

Introducing eve

Vercel lance eve, un framework open-source pour construire et déployer des agents en production. eve fournit l'infrastructure prête à l'emploi (gestion des modèles, fallbacks, logging) ; les développeurs définissent uniquement le comportement via des fichiers (agent.ts, instructions.md, tools). Inspiré par Next.js pour le web, eve standardise la construction d'agents comme Next.js l'a fait pour les applications web.

Agents IA Open source Outils

SIG

HYP

arXiv cs.LG·17 juin

Sum-of-Squares Degree Barriers for the Reweighted-Hinge Method in Robust Halfspace Learning: A Christoffel-Function Characterization

Article théorique sur les barrières de degré Sum-of-Squares pour l'apprentissage robuste de demi-espaces avec bruit malveillant. La fonction de Christoffel caractérise exactement la corruption qu'un certificat de degré borné ne peut pas éliminer. Démontre un compromis marge-degré et un algorithme de degré-2t atteignant la frontière η^(1-1/2t).

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

DivInit améliore l'échelle de test pour la recherche agentic en diversifiant les requêtes initiales. Au lieu d'échantillonner k requêtes indépendantes en parallèle, la méthode génère n candidats puis sélectionne k graines diversifiées. Gains de 5-7 points sur QA multi-hop sans coût computationnel supplémentaire, validé sur 5 modèles open-weight et 8 benchmarks.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Nothing from Something: Can a Language Model Discover 0?

Étude sur la capacité des modèles de langage à découvrir le concept mathématique de zéro. Des modèles GPT-2 échouent sans entraînement supplémentaire, mais progressent après exposition à des dizaines/centaines d'exemples. Le préentraînement linguistique réduit de ~50% les exemples nécessaires.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions

SkillChain-Gym est un benchmark pour la planification de production intégrant la gestion des compétences des travailleurs. L'environnement simule la dégradation des certifications, la formation et les contraintes de capacité. Évaluation de politiques de production, d'adaptation réactive et d'assurance statique sur 60 périodes avec métriques opérationnelles et de résilience.

Benchmarks Reinforcement learning Agents IA

SIG

HYP