juin 2026

2731 articles

GLM-5.2 is now 1st on Design Arena — ahead of the now unavailable Claude Fable 5.

GLM-5.2 atteint la 1ère place du classement Design Arena, devançant Claude Fable 5 qui n'est plus disponible. Le modèle de Zhipu AI domine le benchmark de conception.

Benchmarks Qwen

SIG

HYP

Google DeepMind·16 juin

Unlocking UK house-building with AI-accelerated planning

Google DeepMind collabore avec le gouvernement britannique sur un prototype IA pour accélérer les décisions de planification immobilière au Royaume-Uni.

DeepMind Outils

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Minimax M3 (4 bit MLX) Initial Benchmark on Mac Studio M3u 512gb

Benchmark du modèle Minimax M3 en 4-bit MLX sur Mac Studio M3 512GB. Résultats : TTFT 3.1s (pp1024/tg128), throughput 147.7 tok/s, pic mémoire 226.6GB. Batching continu : speedup 1.83x à 4 requêtes parallèles (49.9 tok/s).

Benchmarks Open source Infrastructure

SIG

HYP

Hacker News (AI)·16 juin

GitHub Models is no longer available to new customers

GitHub Models, le service d'accès aux modèles IA via GitHub, n'accepte plus de nouveaux clients. La plateforme ferme ses portes aux inscriptions fraîches.

Business

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 just dropped open weights and it already looks weirdly strong for coding

GLM-5.2 sort en poids ouverts avec licence MIT. Fenêtre de contexte 1M, deux modes de raisonnement, performances fortes en coding sur les arenas. Modèle open-source contrairement aux versions API-only.

Qwen Open source Génération de code

SIG

HYP

Hacker News (AI)·16 juin

Lexar Wants to Offload Local AI Models to SSD Amid the RAMpocalypse

Lexar propose de stocker les modèles IA locaux sur SSD plutôt qu'en RAM pour contourner les limitations mémoire. La stratégie vise à réduire les coûts matériels et rendre l'inférence IA accessible sur des appareils avec peu de RAM.

Infrastructure Outils

SIG

HYP

Hacker News (AI)·16 juin

DeepSeek V4 Pro at 5% the cost of Claude – what it takes to close the gap

DeepSeek V4 Pro offre des performances comparables à Claude à 5% du coût. L'article analyse les écarts technologiques et économiques entre les modèles, sans détails chiffrés précis sur les benchmarks ou les tarifs exacts.

DeepSeek Claude Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM 5.2 API is live, weights are on HF, and ollama has it already

GLM-5.2 est disponible en API ($1.4/M tokens input, $4.4/M output) et en poids open-source MIT sur HuggingFace. Ollama l'intègre déjà. Benchmarks : 81.0 Terminal-Bench 2.1, 62.1 SWE-bench Pro, 74.4 FrontierSWE. Contexte 1M, deux modes thinking (High/Max).

Open source Génération de code Benchmarks

SIG

HYP

The Decoder·16 juin

Microsoft's Copilot Cowork moves to usage-based billing and may tap DeepSeek

Microsoft envisage une version fine-tuned de DeepSeek V4 comme option moins chère pour Copilot Cowork. L'entreprise bascule aussi à une facturation à l'usage, Charles Lamanna estimant que les tarifs forfaitaires ne sont pas durables.

DeepSeek Business Agents IA

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Get in here: Community model build thread

Un thread Reddit propose de créer un modèle communautaire via calcul distribué en utilisant une approche Mixture-of-Experts (MoE). La stratégie « Branch-Train-Stitch » distribue un modèle prototype dense à des participants qui l'entraînent indépendamment sur leur matériel, puis fusionnent les sous-modèles en MoE. Les décisions clés incluent la taille du prototype (2B ou 7B) selon la VRAM disponible.

Open source Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 is the first open-weights model to cross 80% on Terminal-Bench and beats every other open model available

GLM-5.2 devient le premier modèle open-weights à dépasser 80% sur Terminal-Bench, surpassant tous les autres modèles ouverts et Gemini. Classé frontier-level à coût réduit.

Qwen Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 Takes #2 Spot on WebDew Arena

GLM-5.2 atteint la 2e place du classement WebDev Arena. Le modèle Qwen positionne bien face aux concurrents majeurs.

Qwen Benchmarks

SIG

HYP

Le Big Data·16 juin

Eno : le nouveau robot de Genesis AI préfère être utile plutôt que joli

Genesis AI présente Eno, un robot humanoïde conçu pour accomplir des tâches complexes sans priorité esthétique. Le design privilégie l'utilité fonctionnelle.

Robotique

SIG

HYP

The Decoder·16 juin

Berlin court rules Google's AI Overviews are just a new search format, not original content

Un tribunal de Berlin juge que les résumés IA de Google constituent un « nouveau format de résultat de recherche » sans influence décisive de Google sur le contenu. Une entreprise de parfum avait poursuivi Google car ses résumés IA affichaient ses marques aux côtés de contrefaçons. La décision contraste partiellement avec un jugement de Munich tenant Google responsable des réponses IA inexactes.

Régulation DeepMind

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 is available on HuggingChat

GLM-5.2, le modèle de Zhipu AI, est désormais accessible via HuggingChat. Pas de détails techniques fournis dans l'annonce.

Qwen

SIG

HYP

Reddit r/LocalLLaMA·16 juin

A benchmark for tiny LLMs based on a real world problem: natural language file search (using monkeSearch)

Benchmark pour petits LLM (<3B paramètres) évaluant la capacité à parser du langage naturel en JSON structuré pour la recherche de fichiers. 9 modèles testés (Gemma-3 270M à DeepSeek R1 Distill 1.5B) sur 80 requêtes couvrant types de fichiers, contexte temporel et spécificité. Résultats : modèles 0.8B–1.5B surpassent les sub-0.5B.

Benchmarks Open source Génération de code

SIG

HYP

Hacker News (AI)·16 juin

GPT‑NL: a sovereign language model for the Netherlands

GPT-NL est un modèle de langage souverain entraîné pour le néerlandais, développé aux Pays-Bas. Le projet vise à réduire la dépendance aux modèles américains et à préserver l'indépendance technologique linguistique.

Open source Llama

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Mistral - New family of open-weight models @ July

Mistral annonce une nouvelle famille de modèles open-weight en juillet. Le tweet d'Arthur Mensch (CEO) confirme le lancement sans détails techniques supplémentaires dans l'extrait.

Mistral Open source

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Glimmer 1 - Glint Research. A foundational 10,000 parameter language model

Glint Research présente Glimmer 1, un modèle de langage fondationnel de 10k paramètres entraîné sur 500K tokens de FineWeb-Edu. Architecture standard Llama avec 16 dimensions cachées, 2 couches, 4 têtes d'attention et fenêtre de contexte de 512 tokens. Benchmarks : arc_easy 25.46%, wikitext-2 perplexité 14.73 (byte).

Llama Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

zai-org/GLM-5.2 is here!

GLM-5.2 est disponible. Le modèle de zai-org améliore les capacités de raisonnement et de compréhension par rapport aux versions antérieures.

Open source

SIG

HYP

Reddit r/LocalLLaMA·16 juin

bartowski/command-a-plus-05-2026-GGUF · Hugging Face

Publication d'une version GGUF du modèle Command-A-Plus-05-2026 sur Hugging Face. L'auteur invite les utilisateurs à tester avec la dernière version de llama.cpp et à partager leurs benchmarks de tokens/seconde.

Open source Outils Benchmarks

SIG

HYP

Hacker News (AI)·16 juin

Claude: Elevated errors across many models

Anthropic signale des erreurs élevées affectant plusieurs versions de Claude. Les utilisateurs rapportent des dysfonctionnements sur la plateforme. Pas de détails techniques fournis dans le titre.

Claude Anthropic

SIG

HYP

Simon Willison·16 juin

datasette-tailscale 0.1a0

Release de datasette-tailscale 0.1a0, plugin alpha expérimental permettant de déployer un serveur Datasette via Tailscale. Utilise les bindings Python de la librairie tailscale-rs pour connecter une instance locale à un Tailnet.

Outils Open source Infrastructure

SIG

HYP

Hacker News (AI)·16 juin

GateGPT: 56k tokens per second Transformer (KV cache) on FPGA at 80 MHz

GateGPT atteint 56k tokens/sec sur FPGA à 80 MHz en optimisant le cache KV des Transformers. Démonstration d'accélération matérielle pour l'inférence.

Infrastructure Benchmarks

SIG

HYP

Reddit r/MachineLearning·16 juin

I built a leakage-clean verifier for robot manipulation, is this useful? Am I solving a non-problem? [D]

Développeur crée un vérificateur de benchmark pour la manipulation robotique qui compile des démonstrations humaines en graphes objet-centriques et valide les rollouts indépendamment, évitant les fuites d'information. Soulève la question : est-ce utile face aux métriques ad-hoc actuelles, ou résout-il un non-problème ?

Robotique Benchmarks Évaluations

SIG

HYP

Simon Willison·16 juin

Quoting Georgi Gerganov

Georgi Gerganov (créateur de llama.cpp) utilise quotidiennement Qwen3.6-27B pour des tâches de codage sur M2 Ultra et RTX 5090. Il l'intègre via un agent léger (pi) avec prompt système personnalisé pour l'assistance à la maintenance ggml-org.

Qwen Génération de code Agents IA

SIG

HYP

Reddit r/LocalLLaMA·16 juin

[Article] The Case For Open-Weight Models And Why We Can't Trust Frontier Labs | provos.org

Article argumentant pour les modèles open-weight face aux labs frontier. Critique la concentration du pouvoir chez quelques entreprises et plaide pour l'accessibilité et la transparence des poids de modèles IA.

Open source Llama Alignement

SIG

HYP

The Decoder·16 juin

SpaceX bets $60 billion on Cursor to catch OpenAI and Anthropic

SpaceX acquiert Anysphere (créateur de Cursor) pour 60 milliards de dollars, deux jours après son IPO. L'objectif : renforcer xAI pour rattraper Anthropic et OpenAI dans la course aux modèles d'IA.

Génération de code Business OpenAI

SIG

HYP

Le Big Data·16 juin

La fin des réponses rapides ? Cet agent de recherche approfondie prend 8 heures pour répondre

Sakana AI lance Marlin, un agent de recherche approfondie générant des rapports stratégiques de plus de 100 pages. Le système prend 8 heures pour produire des analyses détaillées, marquant un changement de paradigme vers la profondeur plutôt que la rapidité.

Agents IA Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Anthropic going back on `claude -p` 3rd party usage

Anthropic revient sur sa décision de bloquer l'accès à Claude via des wrappers tiers pour claude-p. La communauté soupçonne un revirement de communication plutôt qu'un changement stratégique durable, contrairement aux bannissements antérieurs d'OpenClaw et Hermes.

Claude Open source

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Scaling former VibeThinker-1.5B to 3B — now it reaches frontier math & coding performance

VibeThinker-3B atteint 94.3 sur AIME'26, 80.2 sur LiveCodeBench v6 et 96.1% de réussite sur des concours LeetCode inédits. Le modèle démontre que les petits modèles peuvent atteindre des performances de frontier en raisonnement mathématique et codage grâce à des signaux de vérification clairs.

Raisonnement Benchmarks Génération de code

SIG

HYP

Le Big Data·16 juin

Salesforce acquiert Fin pour renforcer son offre d’IA d’entreprise

Salesforce acquiert Fin pour 3,6 milliards de dollars pour renforcer sa stratégie IA d'entreprise. L'acquisition vise à accélérer le développement de capacités d'IA générative intégrées à sa plateforme.

Business Agents IA

SIG

HYP

Interconnects (Nathan Lambert)·16 juin

Frontier post-training recipe review with Finbarr Timbers

Entretien avec Finbarr Timbers sur les recettes de post-training des modèles frontier. Discussion des techniques d'optimisation et des approches actuelles pour améliorer les performances des grands modèles de langage.

Raisonnement Reinforcement learning

SIG

HYP

The Decoder·16 juin

DOJ invokes national security to defend xAI's unpermitted gas turbines in NAACP lawsuit

Le ministère de la Justice américain invoque la sécurité nationale pour défendre les turbines à gaz non autorisées d'xAI dans un procès de la NAACP, affirmant que le chatbot Grok est essentiel aux opérations militaires.

Régulation Sécurité IA Business

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Qwen Robot Suite

Alibaba annonce Qwen Robot Suite, une suite logicielle pour robotique basée sur ses modèles Qwen. Détails techniques et capacités non précisés dans l'extrait.

Qwen Robotique

SIG

HYP

Le Big Data·16 juin

Google Cloud soutient l’ambition de superintelligence d’Ineffable Intelligence

Ineffable Intelligence lève 1,1 milliard de dollars et s'appuie sur Google Cloud pour développer ses ambitions en superintelligence. Le partenariat inclut l'infrastructure cloud nécessaire aux entraînements de modèles à grande échelle.

DeepMind Financements Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Why might DiffusionGemma be better at tool calls than its benchmark quality suggests

DiffusionGemma génère 256 tokens en parallèle avec attention bidirectionnelle, permettant l'auto-correction avant finalisation. Contrairement aux modèles autorégressifs figés après chaque token, cette architecture pourrait améliorer les appels d'outils structurés malgré une qualité de base inférieure à Gemma 4. Reste à tester si la correction bidirectionnelle compense la qualité plus faible.

Gemini Génération de code Raisonnement

SIG

HYP

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> tracel-ai /</span> burn

Burn est une bibliothèque tensor et framework de deep learning nouvelle génération axé sur la flexibilité, l'efficacité et la portabilité.

Open source Infrastructure

SIG

HYP

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> homarr-labs /</span> homarr

Homarr est un tableau de bord moderne avec 40+ intégrations, 20K+ icônes intégrées, authentification native et configuration par drag-and-drop sans YAML.

Outils Open source

SIG

HYP

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> ParthJadhav /</span> app-store-screenshots

Outil open-source pour générer automatiquement des captures d'écran d'app store via IA. Automatise la création de visuels marketing pour applications mobiles.

Génération d'images Outils Open source

SIG

HYP

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> nocobase /</span> nocobase

NocoBase est une plateforme open-source combinant IA et no-code pour construire rapidement des systèmes métier. L'IA opère sur une infrastructure éprouvée en production avec interface WYSIWYG, garantissant vitesse et fiabilité.

Open source Business

SIG

HYP

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Egonex-AI /</span> Understand-Anything

Outil convertissant du code en graphe de connaissances interactif explorable et interrogeable. Compatible Claude Code, Cursor, Copilot, Gemini CLI et autres éditeurs.

Génération de code Outils Claude Code

SIG

HYP

GitHub Trending·16 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> microsoft /</span> fara

Microsoft publie Fara-7B, un modèle 7B optimisé pour les tâches agentic et l'utilisation d'ordinateur. Le modèle vise l'efficacité computationnelle tout en maintenant des capacités d'agent autonome.

Agents IA Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Qwen3.6 27B quants

Utilisateur teste Qwen3.6 27B en quantization extrême (IQ3 XXS turbo4) vs Q8 sur tâche de review de code. IQ3 XXS (5min, 1230pp/50tg) produit recommandations comparables à Q8 (1h56m, 306pp/3tg). Conclusion : quantization agressive suffisante pour coding si prompt/jugement solides.

Qwen Génération de code Fine-tuning

SIG

HYP

Reddit r/MachineLearning·16 juin

My offline ablation said -0.19pp. The production retrain said +1.11pp. [D]

Un ingénieur ML rapporte que ses ablations offline (retraining avec/sans feature) donnaient des résultats opposés à la production. Quatre changements : Best Offer feature (+0.12pp offline → -0.19pp prod), backfill données enchères (+0.37pp prod), trimming outliers (-0.19pp offline → +1.11pp prod), encodeur CatBoost. Causes : train/serve skew, distribution shift non mesurée, population drift, instabilité baseline.

Évaluations Benchmarks

SIG

HYP

The Decoder·16 juin

How easily can Russian propaganda fool AI models? A new benchmark finds out

L'Institut de la langue estonienne publie un benchmark mesurant la susceptibilité des modèles de langage IA à la propagande russe. Aucun détail technique ou résultat chiffré fourni dans l'extrait.

Benchmarks Sécurité IA Alignement

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Gemma 12b - Reasoning hardening instructions

Un utilisateur partage une instruction système pour améliorer le raisonnement de Gemma 12b QAT. La technique vise à réduire les biais cognitifs et à adapter la profondeur de réflexion selon le contexte. Elle fonctionne bien sur les questions pièges mais échoue partiellement sur certains problèmes selon leur formulation.

Gemini Prompt engineering Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Be wary of Qwen/Claude distillations - they're often worse than the base model

Les distillations Qwen/Claude circulant sur r/LocalLLaMA (Qwopus, Fable 5 sur Qwen 3.6) utilisent 4k-10k samples d'entraînement, insuffisant pour améliorer les performances. Comparé aux 700k samples des distillations DeepSeek-R1 officielles, ces modèles ne dépassent pas le Qwen de base et dégradent légèrement la qualité malgré un style de raisonnement différent.

Qwen Claude Fine-tuning

SIG

HYP

Le Big Data·16 juin

Nvidia mobilise 20 milliards de dollars de dette pour renforcer son offensive dans l’IA

Nvidia émet jusqu'à 25 milliards de dollars de dette sur le marché obligataire pour financer son expansion dans l'IA. Cette mobilisation de capital renforce la position du géant des semiconducteurs face à la concurrence croissante.

Business Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Donate your coding sessions to an open CC-BY-4.0 dataset to help train open-weight and open source models

Initiative Trace Commons : collecte de traces de sessions de codage sous licence CC-BY-4.0 pour entraîner des modèles open-source et open-weight. Objectif : contrebalancer l'avantage compétitif d'Anthropic et OpenAI qui accumulent des données propriétaires via Claude Code et Codex.

Open source Génération de code Agents IA

SIG

HYP

The Decoder·16 juin

Anthropic backs off unpopular billing overhaul as price war with OpenAI looms

Anthropic abandonne sa refonte impopulaire du système de facturation pour le Claude Agent SDK avant son lancement. Les applications tiers continueront à puiser dans les limites d'abonnement standard au lieu de crédits séparés.

Claude Agents IA Business

SIG

HYP

The Decoder·16 juin

DeepSeek takes outside money for the first time at a $50 billion valuation

DeepSeek lève 50 milliards de yuans (7,4 milliards USD) lors de son premier tour de financement externe, atteignant une valorisation de 50 milliards USD.

DeepSeek Financements Business

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Nex-N2 Pro is the real deal

N2 Pro (rebrandé Rio-3.5) démontre des performances solides en benchmarks de code sur macOS 128GB. L'utilisateur rapporte une cohérence 100% sans hallucinations sur des tests privés llama.cpp, surpassant les modèles testés précédemment sauf GPT-5.x.

Llama Génération de code Benchmarks

SIG

HYP

The Decoder·16 juin

OpenAI burned through $34 billion last year

OpenAI a dépensé 34 milliards de dollars l'année passée, bien plus que l'année précédente. Aucun détail sur l'allocation des coûts n'est fourni.

OpenAI Business

SIG

HYP

Reddit r/LocalLLaMA·16 juin

A fast, optimised, and open source application for running local AI easily (made for Apple Silicon only)

AeroLLM, application open source optimisée pour Apple Silicon, permet d'exécuter localement des LLM, TTS et STT via une interface graphique. Utilise MLX pour l'inférence native, télécharge les modèles depuis Hugging Face avec recommandations RAM, expose une API optionnelle. Version 0.1.0 disponible.

Open source Outils Llama

SIG

HYP

Le Big Data·16 juin

Hydra Host lève 100 millions de dollars pour développer ses usines dédiées à l’IA

Hydra Host lève 100 millions de dollars menés par Kindred Ventures pour développer ses usines dédiées à l'IA et accélérer son expansion.

Infrastructure Financements

SIG

HYP

Le Big Data·16 juin

Meta donne un gros coup d’IA à Facebook… en exploitant les publications publiques

Meta intègre l'IA dans Facebook via un nouveau mode de recherche exploitant les publications publiques. La plateforme promet des réponses plus rapides aux requêtes utilisateurs.

Meta AI RAG

SIG

HYP

Simon Willison·16 juin

The Fable 5 Export Controls Harm US Cyber Defense

Claude Fable 5 a été interdit à l'export sous contrôle américain après qu'une demande simple « fix this code » ait permis de générer des exploits de sécurité. Kate Moussouris dénonce l'absurdité : les modèles de code doivent corriger les bugs, notamment les vulnérabilités. Bannir cette capacité affaiblirait la défense cyber.

Claude Régulation Sécurité IA

SIG

HYP

Le Big Data·16 juin

Ces hackers chinois utilisent Gemini pour piéger des tas de gens : Google riposte !

Le FBI et Google ont démantelé un réseau de cybercriminels chinois utilisant Gemini pour des attaques. Google a riposté contre ces abus de sa plateforme.

Gemini Sécurité IA Régulation

SIG

HYP

Reddit r/MachineLearning·16 juin

quicktok: a faster tokenizer (exact and byte-identical with tiktoken) [P]

quicktok est un tokeniseur BPE écrit en C++ produisant des tokens byte-identiques à tiktoken. Il encode 2–3.6× plus vite que bpe-openai et 4–11× plus vite que tiktoken lui-même. Supporte cl100k, o200k, GPT-OSS, Llama-3, Qwen2.5/3. Optimisations : trie 2-byte, caches denses, pretokenizer compilé.

Génération de code Outils Open source

SIG

HYP

Hacker News (AI)·16 juin

OpenAI Losses Increased Nearly 8X in 2025, with Spending Hitting $34B

OpenAI a multiplié ses pertes par 8 en 2025, avec des dépenses atteignant 34 milliards de dollars. La trajectoire financière de l'entreprise montre une accélération des investissements en infrastructure et R&D.

OpenAI Business

SIG

HYP

arXiv cs.AI·16 juin

Your Agent Has a Genome: Sequence-Level Behavioral Analysis and Runtime Governance of LLM-Powered Autonomous Agents

Framework Base Sequence Analysis encode le comportement d'agents autonomes LLM en séquences symboliques (X/E/P/V). Analyse de 347 traces de production ReAct révèle que P-X-P réduit le succès de 10.4% et P-ratio prédit négativement (r=-0.256). Governor, système d'intervention runtime, augmente le succès de +6.2% et réduit tokens de 44%. Validation sur 2000 trajectoires SWE-agent.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·16 juin

Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA présente Nemotron 3 Ultra, un modèle MoE hybride Mamba-Transformer de 550B paramètres (55B actifs) pré-entraîné sur 20T tokens avec contexte 1M. Utilise SFT, RL et distillation multi-enseignants. Atteint ~6x le débit d'inférence des LLM publics avec précision équivalente. Checkpoints, données et recette open-sourcés sur HuggingFace.

Agents IA Raisonnement Open source

SIG

HYP

arXiv cs.AI·16 juin

AI Engram: In Search of Memory Traces in Artificial Intelligence

Étude introduisant un cadre géométrique pour identifier des « engrams IA » — traces mémoire dans les réseaux de neurones profonds analogues aux unités biologiques. Les auteurs dérivent un estimateur en forme fermée permettant de manipuler chirurgicalement les connaissances apprises (composition, effacement) via arithmétique linéaire, sans optimisation itérative. Validation sur MLPs et LLMs.

Raisonnement Papers Alignement

SIG

HYP

arXiv cs.AI·16 juin

Semantics-Enhanced Retrieval-Augmented Time Series Forecasting

SERAF, un framework de prévision de séries temporelles, combine récupération de segments historiques et descriptions textuelles auto-générées. Approche multimodale testée sur 7 datasets réels pour améliorer les prédictions au-delà de la simple similarité numérique.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.AI·16 juin

Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

DR-DCI combine retrieval et Direct Corpus Interaction pour les agents de recherche sur larges corpus. Le système utilise un retriever pour remplir dynamiquement un workspace local où l'agent exécute des opérations précises (filtrage, comparaison, vérification). Sur Browsecomp-Plus, DR-DCI atteint 71,2% de précision (+8,3 points vs DCI brut) et reste stable jusqu'à 10M documents, là où DCI brut devient instable.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

AI for Social Good: An Investigation of the Causal Relationship Between Environmental Regulations and Their Effects on Air Pollution in London, UK

Étude Bayésienne sur l'impact des régulations anti-pollution à Londres (2010-2020). Un modèle LSTM Bayésien intégrant données PM2.5, météo et 32 mesures politiques estime une réduction moyenne de 1.88 µg/m³ (IC 95%: 1.64-2.12), soit -12.35% relatif. Effets croissants 2013-2019.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·16 juin

Frame-Conditioned Moral Computation in LLaMA 3.1-8B-Instruct: A Mechanistic Interpretability Audit of Ethical Reasoning

Audit de mécanismes internes du modèle LLaMA 3.1-8B-Instruct sur 54 prompts moraux utilisant Transluce. Découverte d'un « Situational Anchor Effect » : les représentations domaine-spécifiques dominent indépendamment du contenu éthique. L'éthique reste constante en capacité mais très sensible au cadre interprétatif du prompt. Identification d'un neurone candidat (L16/N3837) stable en température.

Llama Alignement Évaluations

SIG

HYP

arXiv cs.AI·16 juin

CogGuard: Cognitive and Operational Profiling for Proactive Warning in Edge Intelligent Services

CogGuard est un framework de prédiction proactive pour services edge utilisant des LLM hors-ligne pour construire des profils cognitifs et opérationnels, puis des SLM pour scorer en temps réel. Réduction de 48% du temps de construction de profils et 19% du fine-tuning distribué sur clusters hétérogènes. Erreur réduite de 15.4% vs baseline sur données éducatives.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Toward Vibe Medicine: A Self-Evolving Multi-Agent Framework for Clinical Decision Support

VIBEMed est un framework multi-agent avec mécanisme d'auto-évolution pour le support décisionnel clinique. Trois agents spécialisés (diagnostic, traitement, évolution) intègrent l'historique des sessions patients et les résultats passés pour améliorer itérativement les décisions médicales. Résultats sur planification oncologique et cas complexes.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·16 juin

Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability

Metric Match est une méthode pour évaluer la fiabilité des juges LLM avec moins d'annotations humaines. Elle sélectionne un sous-ensemble d'échantillons dont les étiquettes synthétiques correspondent aux métriques de fiabilité de la population. Sur 15 datasets, elle réduit l'erreur d'estimation de 18,7% et les besoins en annotation de 32,5%, économisant $1,041.67 dans un cas médical.

Évaluations Benchmarks Papers

SIG

HYP

arXiv cs.AI·16 juin

Feature Attribution in Directed Acyclic Graphs Using Edge Intervention

DAG-SHAP, une nouvelle méthode d'attribution de features basée sur l'intervention sur les arêtes dans les graphes acycliques dirigés. Améliore les méthodes Shapley existantes en capturant simultanément l'externalité et l'influence exogène des features. Code disponible sur GitHub.

Évaluations Papers

SIG

HYP

arXiv cs.CL·16 juin

Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models

ASAG, une méthode sans entraînement basée sur l'analyse des distributions d'attention, détecte le surapprentissage dans les modèles de raisonnement et arrête la génération de manière adaptative. Testé sur DeepSeek-R1-Distill et Qwen3, elle améliore la précision de 3,2% tout en réduisant les tokens générés de 40% sur Qwen3-8B.

Raisonnement DeepSeek Qwen

SIG

HYP

arXiv cs.LG·16 juin

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

TruDi introduit des politiques de diffusion pour l'apprentissage par renforcement on-policy massivement parallèle. La méthode intègre une contrainte de divergence KL sur la trajectoire de diffusion complète pour stabiliser l'entraînement. Évaluation sur 73 tâches : surpasse les baselines, gains significatifs sur contrôle humanoïde.

Reinforcement learning Raisonnement Robotique

SIG

HYP

arXiv cs.LG·16 juin

Edu-Theater: A Data-Efficient Agent Framework for Scalable Learner Behavior Simulation through Staging Roll-Call

Edu-Theater est un système multi-agent basé LLM pour simuler le comportement d'apprenants à grande échelle. Il utilise une approche cohort-aware avec diagnostic ciblé plutôt que des historiques denses par apprenant, réduisant les appels LLM et les données nécessaires. Testé sur deux datasets réels, il améliore la précision de simulation et les applications aval comme les tests adaptatifs.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Exploring Starts Are Not Enough: Counterexamples and a Fix for Monte Carlo Exploring Starts

Étude des propriétés de convergence de Monte Carlo Exploring Starts (MCES) en apprentissage par renforcement tabulaire. Les auteurs construisent des contre-exemples montrant que MCES peut converger vers des solutions sous-optimales, même avec exploration initiale. Une modification basée sur l'ajustement des taux d'apprentissage par fréquence de mise à jour garantit la convergence à l'optimalité.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

M-CTX: Exact and Scalable Spatial Context Retrieval for Trajectory Analytics

M-CTX est un framework de récupération de contexte spatial pour l'analytique de trajectoires. Il remplace trois étapes brute-force (récupération OSM, calcul SDF, recherche de voisins) par des opérateurs indexés. Sur un corpus maritime de 5,48M anchors, il réduit le temps de construction de contexte de 17 jours CPU à 1,8 heures (speedup 226x), avec reproduction exacte du contexte de référence.

Benchmarks Infrastructure Open source

SIG

HYP

arXiv cs.CL·16 juin

A Practical Evaluation Method for Long-Form Simultaneous Speech-to-Speech Translation

Nouvelle méthode d'évaluation pratique pour la traduction simultanée parole-à-parole (SimulS2ST) sur longs énoncés continus. Utilise ASR, alignement forcé et embeddings de phrases pour récupérer timestamps et aligner texte cible aux phrases source, puis calcule latence et qualité (YAAL, xCOMET) au niveau phrase. Révèle accumulation substantielle de latence sur longs discours.

Voix Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·16 juin

Simplifying the Modeling of Arbitrary Conditionals in Natural Language

AC-GPT modifie les Transformers causaux pour évaluer et générer à partir de conditionnels arbitraires (passé, futur, contextes mixtes) en un seul passage avant. La méthode préserve l'ordre gauche-droite et l'objectif de prédiction du token suivant, permettant l'affinage des LLMs existants sans dégrader les performances standard.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Towards a Unified Generative Model for Scarce Time Series with Domain Experts

TimeMoDE, un framework combinant Diffusion Transformers et Mixture-of-Experts, génère des séries temporelles réalistes en contexte de données scarces. Pré-entraîné sur des datasets multi-domaines, il utilise des Domain Prompts pour adapter l'assignation d'experts et intègre des signaux de diffusion pour calibrer le débruitage. Surpasse les méthodes existantes en few-shot generation.

SIG

HYP

arXiv cs.AI·16 juin

CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation

CONCORD est un framework pour RAG asynchrone sur device-cloud avec isolation documentaire. Il utilise un contrôle de dette d'attente et une supplémentation minimale guidée par certificat pour réduire la synchronisation et le transfert de données. Améliore le débit de 1.66× à 2.15× sur Natural Questions et WikiText-2 tout en réduisant la communication par token de plus de 100×.

RAG Papers Infrastructure

SIG

HYP

arXiv cs.AI·16 juin

ChatPlanner: A Large Language Model Framework for Personalized Public Transit Routing

ChatPlanner est un framework utilisant des LLMs fine-tunés avec RAG pour extraire les préférences utilisateur en langage naturel et les intégrer dans un algorithme d'optimisation de trajets en transport public. Évalué sur 8 personas et 5 contextes, le système combine fine-tuning (structure de sortie) et RAG (contexte spécifique) pour identifier des solutions ignorées par les planificateurs existants.

RAG Fine-tuning Prompt engineering

SIG

HYP

arXiv cs.LG·16 juin

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

PolyKV optimise la compression du cache KV en appliquant des stratégies hétérogènes par couche transformer, plutôt qu'une politique uniforme. Sur LLaMA-3.1-8B et Qwen3-8B, avec budget KV de 512 tokens, PolyKV récupère 54,5% et 25,7% de l'écart de performance LongBench versus FullKV.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Controlled Dynamics Attractor Transformer

CDAT couple l'attention Transformer avec des dynamiques d'attracteurs inspirées des réseaux de neurones continus (CANN). Le modèle combine une énergie d'attention von Mises-Fisher avec un raffinement Hopfield et une modulation excitation-inhibition. Résultats SOTA en détection d'anomalies et classification de graphes.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

Contextual Bandits for Maximizing Stimulated Word-of-Mouth Rewards

Framework de bandit contextuel multi-bras pour optimiser le bouche-à-oreille stimulé via réseaux sociaux. L'approche apprend les probabilités individuelles de débordement (spillover) et classe les utilisateurs connectés pour maximiser les récompenses. Expériences sur données réelles montrent une amélioration de la précision de ciblage et des récompenses par rapport aux méthodes baseline.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Can Neural Networks Achieve Optimal Computational-statistical Tradeoff? An Analysis on Single-Index Model

Étude théorique montrant que les réseaux de neurones entraînés par gradient peuvent atteindre le compromis optimal calcul-statistique pour les modèles single-index gaussiens. L'algorithme proposé (réseau deux couches) atteint une complexité d'échantillon Õ(d^{s*/2} ∨ d) correspondant à la borne inférieure SQ, avec extension au cas k-sparse via perturbation de poids.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

TriAdReview: Triangular Adversarial Review Architecture for Multi-Model Technical Document Generation

TriAdReview propose une architecture adversariale triangulaire avec deux modèles reviewers (ingénierie et sécurité) pour améliorer la génération de documents techniques. Sur 75 expériences, le système triple atteint +10.1% vs baseline (26.2 vs 23.8/50, p<0.05), avec gains forts en audit sécurité (+27.6%), génération code (+20.8%), design architecture (+15.6%), mais dégradation sur analyse requirements (-7.5%).

Multi-agents Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

An Integrable Token Mixing Layer from the Generalized Yang Baxter Equation

YB Mixer est une couche de mélange de tokens dérivée de structures de fermions libres et de l'équation de Yang-Baxter généralisée. Elle utilise l'algèbre d'Ising pour créer une structure fermionique orthogonale préservant la norme, avec matrices de transfert commutantes permettant une inférence sans ordre. Un générateur circulant spectral assure la généralisation à des séquences plus longues.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·16 juin

Towards Verifiable Agentic Data Science: Solving Irregular TSQA Via Tool-Grounded Reasoning

IRTS-ToolBench, un benchmark de 1 700 questions sur 10 types de tâches et 13 domaines, évalue comment les LLM et agents IA traitent les séries temporelles irrégulières (asynchrones, valeurs manquantes informatives, fréquences variables). Comble le fossé entre benchmarks TSQA existants (données régulières) et déploiements réels.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

Beyond Accuracy: Measuring Bias Acknowledgment in Chain-of-Thought Reasoning for Responsible AI Evaluation

Étude sur l'évaluation des modèles de raisonnement au-delà de la simple précision. Les auteurs introduisent deux métriques : susceptibilité (si le biais casse une réponse correcte) et reconnaissance (si la trace mentionne explicitement le contenu biaisé). Sur GSM8K, GPT-4o et Claude Sonnet 4 montrent des taux de susceptibilité similaires (1,3% vs 1,2%) mais des taux de reconnaissance très différents (13,0% vs 75,0%).

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.LG·16 juin

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR couple la recherche arborescente (MCTS) avec l'apprentissage par renforcement au moment de l'inférence pour la modélisation d'optimisation. Le système décompose le processus en quatre étapes, affine un adaptateur LoRA via GRPO à chaque nœud, et utilise un système de récompense multi-facettes sans labels. Résultats SOTA sur cinq benchmarks avec backbone 4B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.AI·16 juin

Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs

Mask-Proof est un pipeline automatisé qui transforme des preuves mathématiques réelles en tâches vérifiables avec étapes masquées. Le benchmark contient 292 problèmes curatés. Sur 17 modèles testés, les modèles renforcés en raisonnement surpassent les modèles standards de 12-27%. L'évaluateur atteint 96,8% d'accord avec les annotateurs experts.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·16 juin

Transformers Learn the Mestre-Nagao Heuristic

Des transformers à deux couches classifient les courbes elliptiques rationnelles (rang 0 vs 1) avec >99% de précision à partir de 128 traces de Frobenius. L'analyse mécanistique révèle qu'un circuit sparse de 20 neurones implémente l'heuristique de Mestre-Nagao (poids log(p)/(p·log B), r=0.997), découverte autonome d'un résultat de théorie analytique des nombres.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.AI·16 juin

Towards End-to-End Automation of AI Research

The AI Scientist automatise l'intégralité du cycle de recherche : génération d'idées, code, expériences, analyse de données, rédaction manuscrite et peer review. Un manuscrit généré a passé la première sélection d'un workshop majeur (taux d'acceptation 70%). Le système utilise des foundation models dans une architecture multi-agents.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.LG·16 juin

A Comparative Study of Graph Neural Network Layer Selection for Interaction Modelling in Driving Trajectory Prediction

Étude comparative de 19 types de couches GNN pour la prédiction de trajectoires en conduite autonome. Les couches ARMA, Chebyshev et topology-aware surpassent les autres. L'agrégation par somme, l'attention multi-tête et la pondération par distance de saut améliorent significativement la précision.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

Leveraging Physiological Signals to Predict Exam Outcomes with Machine Learning

Étude comparant modèles ML (régression logistique, random forest, SVM, transformers, LSTM, GRU) pour prédire les résultats d'examen à partir de signaux physiologiques (activité électrodermale, fréquence cardiaque, température cutanée). Les random forests surpassent les modèles deep learning en efficacité computationnelle et interprétabilité.

Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·16 juin

FastMix: Fast Data Mixture Optimization via Gradient Descent

FastMix automatise l'optimisation du mélange de données pour l'entraînement de modèles via descente de gradient. La méthode reformule la sélection de mélange comme un problème d'optimisation bilinéaire, optimisant conjointement les coefficients de mélange et les paramètres du modèle. Un seul modèle proxy suffit, réduisant drastiquement le coût de recherche comparé aux approches antérieures.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

Separable Neural Architectures as Physical World Models: from Mathematical Theory to Applications

Nouvelle architecture neuronale séparable (SNA) combinant approximation neuronale et décomposition tensorielle pour résoudre des EDP haute-dimensionnelle. Cadre variationnel (VSNA) garantissant bien-posedness et convergence. Démontre 150 000x speedup vs FEM sur GPU A100 pour simulation paramétrique 7D et inversion thermique Inconel 718 en temps réel (<100ms).

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·16 juin

Relational Structural Causal Models

Article théorique sur les modèles causaux structurels relationnels (RSCM), extension des SCM de Pearl aux environnements avec objets et relations variables. Propose des critères d'identification symbolique et des modèles neuraux causaux relationnels testés sur scènes de trafic simulées.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.LG·16 juin

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Article théorique sur le routage dynamique de requêtes vers plusieurs modèles d'embedding. Formalise le problème comme un bandit contextuel linéaire adversarial avec experts low-rank. Propose l'algorithme Hypentropy Policy Gradient (HPG) avec regret Õ(s√MT) sans malédiction de dimensionnalité.

Benchmarks Raisonnement Reinforcement learning

SIG

HYP