Page 32 sur 192

ToutHaut signalRécent

7679 articles

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agents Agents IA Prompt engineering

SIG

HYP

arXiv cs.CL·19 mai

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL token-level sur rollouts on-policy. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

Vision Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·19 mai

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba propose une architecture basée sur Mamba pour prédire des séries temporelles cliniques irrégulières. Le modèle estime la fiabilité des observations selon leur manque et délai écoulé, intègre informations court/long terme via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, gains AUPRC de 7,51%, 7,80% et 10,15% respectivement.

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

Rethinking Table Pruning in TableQA: From Sequential Revisions to Gold Trajectory-Supervised Parallel Search

TabTrim, un nouveau cadre de pruning de tables pour TableQA, remplace les révisions séquentielles par une recherche parallèle supervisée par trajectoires or. Le système utilise les sous-tables intermédiaires des requêtes SQL or pour entraîner un pruner et un vérificateur. TabTrim-8B atteint 73,5% de précision moyenne, surpassant les baselines de 3,2% (79,4% sur WikiTQ, 61,2% sur TableBench).

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents

QuickLAP fusionne retours physiques et linguistiques pour apprendre les fonctions de récompense de robots en temps réel. Le framework bayésien utilise des LLM pour extraire des masques d'attention et des préférences du langage libre, intégrés aux corrections physiques via une règle de mise à jour fermée. Réduction d'erreur de 70% vs baselines en simulation de conduite autonome.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

ALIGN: A Vision-Language Framework for High-Accuracy Accident Location Inference through Geo-Spatial Neural Reasoning

ALIGN est un framework vision-langage pour inférer les coordonnées précises d'accidents routiers à partir de rapports d'actualité en bengali et d'indices cartographiques. Utilisant une architecture agentique combinant OCR, LLM et vision-langage, le système réduit l'erreur de localisation de 10,9 km à 0,593 km en validation et 0,465 km sur données officielles de Dhaka.

Vision Agents IA Multi-agents

SIG

HYP

Reddit r/MachineLearning·18 mai

Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]

Développement d'un runtime CUDA optimisé pour l'inférence petit batch (robotique, VLA). Les goulots d'étranglement ne sont pas les GEMM seuls mais les surcoûts runtime : fragmentation kernels, transitions layout, conversions précision (FP8/FP4), scheduling Python. Résultats : Pi0.5 sur RTX 5090 ~17.6ms, GROOT N1.6 ~12.5-13.1ms, Qwen 27B ~129 tok/s.

Génération de code Infrastructure Robotique

SIG

HYP

Reddit r/MachineLearning·18 mai

Sub-JEPA: a simple fix to LeCun group's LeWorldModel that consistently improves performance [P]

Sub-JEPA améliore LeWorldModel (groupe LeCun, NYU) en appliquant la régularisation gaussienne dans des sous-espaces orthogonaux gelés plutôt que globalement. Gains de +10.7 pp sur Two-Room, trajectoires latentes plus droites, décodabilité d'état physique améliorée. Code et papier disponibles.

Raisonnement Papers Benchmarks

SIG

HYP

Vercel AI Blog·1 mai

How GitBook serves 30,000 sites with sub-second content updates

GitBook héberge 30 000 sites de documentation sur Vercel, servant 120 millions de pages vues mensuelles. La plateforme utilise la directive `use cache` de Next.js pour invalider le cache en moins de 300ms par site, traitant 40 000 invalidations quotidiennes. 41% du trafic provient de crawlers IA.

Infrastructure Génération de code Outils

SIG

HYP

OpenAI Blog·2 févr.

Snowflake and OpenAI partner to bring frontier intelligence to enterprise data

OpenAI et Snowflake signent un partenariat de 200 millions de dollars pour intégrer l'IA frontier directement dans la plateforme de données Snowflake. Les clients pourront déployer des agents IA et générer des insights sans déplacer les données. Intégration native des modèles OpenAI dans l'écosystème Snowflake.

OpenAI Business Agents IA

SIG

HYP

OpenAI Blog·9 janv.

OpenAI and SoftBank Group partner with SB Energy

OpenAI et SoftBank Group s'associent via SB Energy pour construire des campus de data centers multi-gigawatts dédiés à l'IA, dont une installation de 1,2 GW au Texas soutenant l'initiative Stargate.

OpenAI Infrastructure Business

SIG

HYP

OpenAI Blog·11 déc.

Advancing science and math with GPT-5.2

OpenAI annonce GPT-5.2, son modèle le plus performant en mathématiques et sciences, avec résultats SOTA sur GPQA Diamond et FrontierMath. Le modèle résout un problème théorique ouvert et génère des preuves mathématiques fiables.

GPT OpenAI Benchmarks

SIG

HYP

OpenAI Blog·13 nov.

Introducing GPT-5.1 for developers

OpenAI déploie GPT-5.1 en API avec raisonnement adaptatif plus rapide, cache de prompt étendu, performances accrues en code, et nouveaux outils apply_patch et shell.

GPT OpenAI Génération de code

SIG

HYP

Hugging Face Blog·25 sept.

Llama can now see and run on your device - welcome Llama 3.2

Meta lance Llama 3.2 avec capacités de vision intégrées et versions optimisées pour appareils locaux. Le modèle traite images et texte nativement, disponible en versions 1B et 3B pour exécution sur appareil.

Llama Vision Open source

SIG

HYP

Hugging Face Blog·31 juil.

Google releases Gemma 2 2B, ShieldGemma and Gemma Scope

Google publie Gemma 2 2B, un modèle léger optimisé pour l'inférence. ShieldGemma offre une protection contre les contenus nuisibles. Gemma Scope fournit des outils d'interprétabilité pour analyser le fonctionnement interne des modèles.

Gemini Open source Sécurité IA

SIG

HYP

Hugging Face Blog·1 juil.

Our Transformers Code Agent beats the GAIA benchmark 🏅

L'agent de code Transformers de Hugging Face atteint 92% de précision sur le benchmark GAIA, surpassant Claude 3.5 Sonnet (92%) et GPT-4o (87.9%). L'agent combine recherche web, exécution de code et raisonnement multi-étapes pour résoudre des tâches complexes.

Agents IA Génération de code Benchmarks

SIG

HYP

Hugging Face Blog·15 avr.

Introducing Idefics2: A Powerful 8B Vision-Language Model for the community

Hugging Face présente Idefics2, un modèle vision-langage 8B open-source capable de traiter images et texte. Le modèle supporte résolution jusqu'à 1024×1024 pixels et fonctionne sur hardware standard. Disponible sous licence Apache 2.0 avec poids publics et code.

Vision Open source Outils

SIG

HYP

Hugging Face Blog·28 févr.

StarCoder2 and The Stack v2

Hugging Face publie StarCoder2, modèle de code open-source entraîné sur The Stack v2 (dataset de 17B tokens de code). StarCoder2 surpasse CodeLlama sur plusieurs benchmarks (HumanEval, MBPP). Disponible en versions 3B, 7B et 15B, avec poids et code source libres.

Génération de code Open source Benchmarks

SIG

HYP

OpenAI Blog·14 déc.

Weak-to-strong generalization

OpenAI explore comment utiliser les propriétés de généralisation du deep learning pour contrôler des modèles forts avec des superviseurs faibles. Nouvelle direction de recherche pour la superalignment avec résultats initiaux prometteurs.

OpenAI Alignement Raisonnement

SIG

HYP

OpenAI Blog·23 juin

Learning to play Minecraft with Video PreTraining

OpenAI entraîne un réseau de neurones à jouer à Minecraft via Video PreTraining (VPT) sur des vidéos non-annotées de joueurs humains. Le modèle apprend à fabriquer des outils en diamant (tâche de 24 000 actions) avec peu de données étiquetées. Il utilise l'interface native (clavier/souris) et représente un pas vers des agents informatiques généraux.

OpenAI Agents IA Vision

SIG

HYP

Vercel AI Blog·18 juin

The Agent Stack

Vercel présente « The Agent Stack », une pile complète pour construire des agents IA en production. Elle intègre AI SDK (interface unifiée multi-modèles), AI Gateway (routage et facturation centralisée) et permet d'appeler Claude, GPT et autres sans vendor lock-in.

Agents IA Claude GPT

SIG

HYP

arXiv cs.AI·18 juin

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Xcientist est un système qui externalise la synthèse de recherche et la validation expérimentale des scientifiques IA en processus inspectables et gouvernés par contrats. Il organise les preuves littéraires, états d'idées, plans d'implémentation et traces de réparation comme artefacts persistants, éliminant la dérive de réclamation où les artefacts exécutables ne soutiennent plus le mécanisme initialement revendiqué.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Skill-Guided Continuation Distillation for GUI Agents

SGCD, un framework d'auto-amélioration itérative, résout le problème des états hors-trajectoire en GUI agents. Le système exécute d'abord une politique simple, puis utilise une politique guidée par des skills pour générer des continuations réussies. Sur OSWorld-Verified, SGCD améliore le taux de succès de trois modèles de base de 30% à plus de 50%.

Agents IA Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·18 juin

Beyond AHI: An Interpretable Causal-Discovery-Guided Framework for Sleep Recovery in Connected Health

Framework causal pour scorer la récupération du sommeil à partir de polysomnographie multimodale. Utilise DAG learning sur deux cohortes (MESA n=1540, MrOS n=825) pour identifier 5 domaines physiologiques (charge respiratoire, hypoxie, fragmentation, architecture, régulation autonome). Le Sleep Recovery Score (SRS) obtient 2.5× meilleure corrélation avec la récupération perçue que l'AHI classique.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero utilise des agents LLM avec recherche arborescente pour découvrir des stratégies d'entraînement RL adaptatif. Le système identifie que les paramètres de capacité augmentent monotoniquement tandis que les paramètres de régularisation oscillent. Sur 4 tâches GRPO, les stratégies découvertes surpassent le modèle de base de 9-140% et la recherche en grille de 6-15%.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

ASTRA: A Scalable Next-Generation ATCO Training Simulator with Autonomous Simpilots

ASTRA est un simulateur de formation pour contrôleurs aériens qui automatise les rôles de pilotes via une pipeline de reconnaissance vocale, interprétation et génération de réponses. Le système réduit le taux d'erreur de reconnaissance vocale de 107,80% à 23,45% sur l'accent singapourien, et évalue les communications radio avec scores de 91,7% (précision), 88,2% (brièveté), 86,9% (complétude).

Voix Fine-tuning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SAGE: Retain-Aware Post-Hoc Sanitization of Final Unlearning Vector

SAGE est une méthode post-hoc pour améliorer l'oubli sélectif dans les LLM. Elle corrige les vecteurs de mise à jour finaux en supprimant les composantes nuisant à la rétention, sans relancer le pipeline d'oubli original. Testée sur plusieurs méthodes et échelles, SAGE réduit le compromis oubli-rétention.

Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

LLM Parameters for Math Across Languages: Shared or Separate?

Étude mécanistique du raisonnement mathématique dans les LLM multilingues. Les paramètres associés aux maths montrent un chevauchement partiel entre langues, concentré dans les couches intermédiaires. L'anglais produit le plus grand ensemble de paramètres pertinents, tandis que les langues peu dotées en ressources en révèlent moins.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Safety Reflection Pretraining intègre des réflexions de sécurité courtes dans les corpus de préentraînement pour établir l'auto-surveillance directement dans la modélisation du langage. Sur des modèles 1.7B préentraînés sur FineWeb-Edu, la méthode améliore la précision de classification de sécurité et réduit substantiellement les taux de succès des attaques en inférence et fine-tuning.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.CL·18 juin

Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications

Framework pour la customisation et le déploiement efficace de systèmes multi-agents LLM en entreprise. Combine préentraînement continu, fine-tuning supervisé et optimisation de préférences pour adapter des modèles compacts à des domaines spécialisés. Intègre décodage spéculatif et quantification FP8 pour réduire latence et coûts. Atteint 4.48x d'accélération de débit tout en maintenant la performance.

Multi-agents Fine-tuning Business

SIG

HYP

arXiv cs.AI·18 juin

User as Engram: Internalizing Per-User Memory as Local Parametric Edits

Nouvelle approche de personnalisation LLM : stocker les faits utilisateur comme édits locaux dans une table mémoire hashée (Engram) plutôt que via LoRA global. Réduit l'empreinte mémoire de 33 000x, améliore la précision du raisonnement indirect de 5,6x en moyenne, et permet de stacker plusieurs utilisateurs sans contamination croisée.

Fine-tuning Raisonnement Papers

SIG

HYP

The Decoder·17 juin

Amazon, Nvidia, and AMD bet $310 million on AI startup building 3D world models

Amazon, Nvidia et AMD investissent 310 millions de dollars dans Odyssey ML, startup de modèles 3D du monde, valorisée à 1,45 milliard. Le fonds IQT et Jeff Dean (Google) participent au tour. Les world models deviennent le prochain pari majeur après les modèles de langage.

Financements Raisonnement Vision

SIG

HYP

The Decoder·17 juin

Zhipu AI's GLM-5.2 closes in on closed-source leaders in coding marathons

Zhipu AI publie GLM-5.2 sous licence MIT avec contexte stable de 1 million de tokens. Sur FrontierSWE (benchmark de tâches de codage longues), le modèle open-source ne traîne que d'1 point derrière Claude Opus 4.8 d'Anthropic. Retard significatif sur le reasoning face aux modèles fermés.

Open source Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5

Gemma 4 E2B tourne en navigateur à 255 tokens/sec via kernels WebGPU optimisés par Fable 5. Demo et kernels disponibles sur Hugging Face.

Gemini Génération de code Open source

SIG

HYP

Vercel AI Blog·17 juin

Vercel Ship 2026 recap

Vercel présente son infrastructure agent-first lors de Ship 2026 à Londres. Trois composants clés : Agent Stack (primitives pour agents), Vercel Connect (accès sécurisé aux outils externes sans tokens persistants), et eve (framework open-source pour agents en production avec exécution durable, compute sandboxé, approbations et évals).

Agents IA Infrastructure Outils

SIG

HYP

The Decoder·17 juin

Nvidia research shows robots that train themselves through AI coding agents

Des chercheurs de Nvidia, Carnegie Mellon et UC Berkeley utilisent des agents IA de codage pour enseigner aux robots la préhension dextère en conditions réelles. Une flotte de huit robots atteint 99% de succès sur des tâches complexes.

Agents IA Génération de code Robotique

SIG

HYP

Le Big Data·17 juin

DeepSeek réalise une levée géante de plus de 7 milliards de dollars

DeepSeek complète une levée de fonds de plus de 7 milliards de dollars, parmi les plus importantes du secteur IA. Montant record pour la startup chinoise spécialisée dans les modèles de langage.

DeepSeek Financements Business

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> DeusData /</span> codebase-memory-mcp

Serveur MCP d'intelligence de code haute performance. Indexe les bases de code dans un graphe de connaissances persistant en millisecondes. Support de 158 langages, requêtes sub-ms, 99% moins de tokens. Binaire statique unique, zéro dépendance.

MCP Génération de code RAG

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> google-research /</span> timesfm

TimesFM est un modèle fondation préentraîné développé par Google Research pour la prévision de séries temporelles. Le repo GitHub propose une implémentation open-source de ce modèle spécialisé.

DeepMind Open source Benchmarks

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> bytedance /</span> UI-TARS-desktop

ByteDance publie UI-TARS-desktop, une stack open-source d'agents IA multimodaux connectant modèles IA et infrastructure d'agents. Plateforme pour construire des agents capables d'interagir avec interfaces utilisateur.

Agents IA Multi-agents Open source

SIG

HYP