mai 2026

3149 articles

Agents IA : pourquoi Singapour attire OpenAI et Google ?

Singapour investit plus de 300 millions de dollars singapouriens dans les agents IA, attirant OpenAI et Google. La cité-État renforce sa position dans ce secteur stratégique.

Agents IA OpenAI DeepMind

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Do you think there is room for optimization? llama.cpp/qwen3.6 27b on two 6000 Blackwell

Utilisateur exécute Qwen3.6-27B via llama.cpp sur deux GPU Blackwell 6000 MaxQ avec AMD Epyc, obtenant 100-110 t/s. Cherche optimisations : cartes à 250/300W, 20GB VRAM disponible. Configuration inclut flash-attention, speculative decoding (draft-MTP), batch 6144, contexte 1M.

Llama Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Anyone else fighting Blackwell GSP timeout in production passthrough? How are you handling recovery without a host reboot?

Utilisateur rapporte des timeouts GSP (Graphics System Processor) sur RTX Pro 5000 Blackwell en passthrough VFIO sous Linux KVM/QEMU. Le GPU entre dans un état irrécupérable après timeout d'initialisation. Secondary Bus Reset, D3cold et rechargement driver échouent ; seul un reboot complet du host fonctionne. Cherche solutions de récupération sans reboot.

Infrastructure Open source

SIG

HYP

Hacker News (AI)·20 mai

Railway GCP Account Suspension Incident Report

Railway signale la suspension de son compte GCP sans préavis. L'incident affecte les déploiements clients. Enquête en cours sur les causes et mesures de mitigation.

Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·20 mai

The MTP function in LMStudio causes a decrease in output quality.

Un utilisateur de LMStudio signale une dégradation de la qualité de sortie lors de l'activation de la fonction MTP, avec des résultats « garbage » comparés à des tests sans MTP. Le problème ne se reproduit pas avec llama-server.exe compilé localement.

Outils Open source

SIG

HYP

Le Big Data·20 mai

Nectar Social lève 30 millions de dollars pour automatiser le marketing avec l’IA

Nectar Social, fondée par deux anciennes dirigeantes de Meta, lève 30 millions de dollars pour automatiser le marketing via l'IA. La startup développe des outils d'automatisation marketing alimentés par des modèles d'IA.

Business Financements

SIG

HYP

Le Big Data·20 mai

Google I/O 2026 : ces lunettes XR créent de la musique d’un geste de la main

Google et Xreal présentent lors de Google I/O 2026 le « Project Aura », des lunettes XR capables de générer de la musique par reconnaissance de gestes manuels. Le projet combine réalité étendue et génération audio.

DeepMind Vision

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Qwen3.7 Max scored by Artificial Analysis, 27B/35B waiting room

Qwen 3.7 Max classé 5e par Artificial Analysis, au niveau de GPT 5.4 (xhigh) et devant Gemini 3.5 Flash. Qwen 3.6 27B affiche 6 points de moins que sa variante Max. Les versions 27B/35B de Qwen 3.7 sont attendues.

Qwen Benchmarks

SIG

HYP

Le Big Data·20 mai

Bons plans, immo, week-ends : les agents IA de Google vont surveiller le web pour vous

Google développe des agents IA autonomes capables de surveiller le web pour trouver des bons plans immobiliers et week-ends à la place des utilisateurs. Ces agents effectuent des recherches automatisées sans intervention humaine.

Agents IA DeepMind

SIG

HYP

Vercel AI Blog·20 mai

Grok Build 0.1 now available on Vercel AI Gateway

Grok Build 0.1, modèle de codage bêta entraîné pour le codage agentique, est désormais disponible sur Vercel AI Gateway. Le modèle fonctionne avec effort de raisonnement non configurable et sans mode non-raisonnement. Vercel AI Gateway offre une API unifiée pour appeler les modèles, suivre l'utilisation et les coûts, avec routage intelligent et retries automatiques.

Génération de code Agents IA Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Guardrails take an 8B model from 53% to 99% on agentic tasks [ACM CAIS '26 preprint]

Des garde-fous (guardrails) améliorent les performances d'un modèle 8B de 53% à 99% sur des tâches agentiques, selon un preprint ACM CAIS '26. La technique renforce le contrôle et la fiabilité des agents IA.

Agents IA Sécurité IA Benchmarks

SIG

HYP

Le Big Data·20 mai

Google I/O 2026 : Les rumeurs disaient vrai, Gemini 3.5 débarque et va tout balayer

Google présente Gemini 3.5 lors de Google I/O 2026, confirmant les rumeurs précédentes. La série complète est dévoilée.

Gemini

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks

Forge, un framework de guardrails, améliore les performances d'un modèle 8B de 53% à 99% sur des tâches agentic. L'outil ajoute des mécanismes de contrôle pour fiabiliser l'exécution d'agents IA.

Agents IA Outils Open source

SIG

HYP

arXiv cs.AI·20 mai

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Position paper proposant des « data probes » — séquences synthétiques générées à partir de processus aléatoires — pour comprendre systématiquement comment les caractéristiques des données affectent la performance des LLM. Approche théorique utilisant des concepts comme les « typical sets » pour dépasser les heuristiques empiriques actuelles basées sur expérimentation coûteuse.

Papers Évaluations Fine-tuning

SIG

HYP

arXiv cs.AI·20 mai

Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production

Architecture microservices pour pipelines Document AI en production : classification, OCR et extraction structurée via LLM. Traite des milliers de documents multi-pages/heure. Découvertes clés : OCR domine la latence (non le LLM), saturation déterminée par capacité GPU partagée. Patterns concrets pour déploiement production.

Infrastructure Génération de code RAG

SIG

HYP

arXiv cs.AI·20 mai

Evaluating the Utility of Personal Health Records in Personalized Health AI

Étude évaluant Gemini 3.0 Flash sur 2,257 requêtes de patients avec contexte de dossiers médicaux personnels (PHR). Amélioration significative de l'utilité des réponses avec données PHR (p<0.001). Identification de lacunes : désorientation temporelle, confabulations rares. Framework d'évaluation développé pour surveiller la qualité des réponses basées sur PHR.

Gemini RAG Évaluations

SIG

HYP

arXiv cs.AI·20 mai

Swimming with Whales: Analysis of Power Imbalances in Stake-Weighted Governance

Étude des déséquilibres de pouvoir dans la gouvernance pondérée par les enjeux (stake-weighted) des blockchains Proof-of-Stake. Utilise l'indice de pouvoir Penrose-Banzhaf pour quantifier comment quelques utilisateurs avec de gros enjeux peuvent contrôler les décisions. Analyse théorique et empirique sur Project Catalyst.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·20 mai

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Étude comparative de Kolmogorov-Arnold Networks (KANs) vs MLPs pour la reconnaissance d'activité humaine (HAR) basée sur IMU. Les KANs excellent sur données propres mais échouent sur données bruitées réelles. L'architecture hybride KAN-MLP proposée atteint +5,33% de F1-score macro sur 8 datasets publics, surpassant les baselines pures.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·20 mai

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

Article de vision sur les réseaux d'agents autonomes (A2A). Les auteurs argumentent que la confiance dans ces systèmes multi-agents ne peut pas être ajoutée après coup, mais doit être intégrée dès la conception. Ils identifient des vulnérabilités systémiques (composition adversariale, désalignement sémantique, défaillances en cascade) et proposent un cadre conceptuel basé sur quatre piliers de conception.

Agents IA Multi-agents Alignement

SIG

HYP

arXiv cs.AI·20 mai

Embedding by Elicitation: Dynamic Representations for Bayesian Optimization of System Prompts

ReElicit est un framework d'optimisation bayésienne pour tuner les system prompts avec feedback agrégé uniquement. Un LLM élicite dynamiquement un espace de features compact et interprétable, puis un processus Gaussien sélectionne des vecteurs cibles optimisés en prompts déployables. Sur 10 tâches avec budget de 30 évaluations, ReElicit surpasse les baselines d'optimisation de prompts.

Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·20 mai

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench est un benchmark pour évaluer la délégation émergente dans les workflows multi-agents long-horizon. Le substrate inclut 11 modèles (7 familles), des tâches GAIA/tau-bench/BFCL, et des métriques multi-axes (qualité, coût, latence, fidélité de routage). Les résultats montrent que la qualité seule masque les signaux d'orchestration, et que le canal de livraison domine le contenu des descriptions.

Agents IA Multi-agents Benchmarks

SIG

HYP

arXiv cs.AI·20 mai

MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

MOCHA est un algorithme d'optimisation multi-objectif pour affiner les skills d'agents LLM. Il utilise la scalarisation de Chebyshev et l'annealing exponentiel pour explorer la frontière de Pareto complète, y compris les régions non-convexes. Sur 6 tâches, MOCHA améliore la performance de 7,5% en moyenne (jusqu'à 14,9% sur FEVER) tout en découvrant deux fois plus de variantes Pareto-optimales que les baselines.

Agents IA Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.LG·20 mai

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA applique des modules LoRA uniquement aux experts les plus activés à chaque couche des modèles Mixture-of-Experts, réduisant les paramètres entraînables de 84% sur OlMoE et améliorant la précision de 9.2%. Testé sur OlMoE-1B-7B, Mixtral-8x7B et DeepSeekMoE sur raisonnement mathématique, génération de code et alignement.

Fine-tuning Benchmarks

SIG

HYP

mai 2026

Agents IA : pourquoi Singapour attire OpenAI et Google ?

Do you think there is room for optimization? llama.cpp/qwen3.6 27b on two 6000 Blackwell

Anyone else fighting Blackwell GSP timeout in production passthrough? How are you handling recovery without a host reboot?

Railway GCP Account Suspension Incident Report

The MTP function in LMStudio causes a decrease in output quality.

Nectar Social lève 30 millions de dollars pour automatiser le marketing avec l’IA

Google I/O 2026 : ces lunettes XR créent de la musique d’un geste de la main

Qwen3.7 Max scored by Artificial Analysis, 27B/35B waiting room

Bons plans, immo, week-ends : les agents IA de Google vont surveiller le web pour vous

Grok Build 0.1 now available on Vercel AI Gateway

Guardrails take an 8B model from 53% to 99% on agentic tasks [ACM CAIS '26 preprint]

Google I/O 2026 : Les rumeurs disaient vrai, Gemini 3.5 débarque et va tout balayer

Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production

Evaluating the Utility of Personal Health Records in Personalized Health AI

Swimming with Whales: Analysis of Power Imbalances in Stake-Weighted Governance

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

Embedding by Elicitation: Dynamic Representations for Bayesian Optimization of System Prompts

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

LLM-Based Financial Sentiment Analysis in Arabic: Evidence from Saudi Markets

Simply Stabilizing the Loop via Fully Looped Transformer

Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

How Far Are We From True Auto-Research?

SimGym: A Framework for A/B Test Simulation in E-Commerce with Traffic-Grounded VLM Agents

Can Large Language Models Revolutionize Survey Research? Experiments with Disaster Preparedness Responses

AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees

BLINKG: A Benchmark for LLM-Integrated Knowledge Graph Generation

Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters

Generative Recursive Reasoning

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling

Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning

IMLJD: A Computational Dataset for Indian Matrimonial Litigation Analysis

Generative Auto-Bidding with Unified Modeling and Exploration

Attention-Guided Reward for Reinforcement Learning-based Jailbreak against Large Reasoning Models

HalluWorld: A Controlled Benchmark for Hallucination via Reference World Models

Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment

SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects

Towards Multi-Model LLM Schedulers: Empirical Insights into Offloading and Preemption

How Do Document Parsers Break? Auditing Structural Vulnerability in Document Intelligence

EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection

Language models struggle with compartmentalization

OpenCompass: A Universal Evaluation Platform for Large Language Models

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

DECOR: Auditing LLM Deception via Information Manipulation Theory

AI Technologies in Language Access: Attitudes Towards AI and the Human Value of Language Access Managers

Fine-tuning language encoding models on slow fMRI improves prediction for fast ECoG

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

MMoA: An AI-Agent framework with recurrence for Memoried Mixure-of-Agent

ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking

Theory-optimal Quantization Based on Flatness

Accurate Evaluation of Quickest Changepoint Detectors via Non-parametric Survival Analysis

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

Metric-Gradient Projection for Stable Multi-Agent Policy Learning

Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

Adaptive Multi-Scale Goodness Aggregation for Forward-Forward Learning

Block-Based Double Decoders

m3BERT: A Modern, Multi-lingual, Matryoshka Bidirectional Encoder

Composition of Memory Experts for Diffusion World Models

Base Models Look Human To AI Detectors

PASC: Pipeline-Aware Conformal Prediction with Joint Coverage Guarantees for Multi-Stage NLP and LLM Pipelines

How Faithful Is Trajectory-Based Data Attribution? Error Sources, Remedies, and Practical Guidelines

Drifting Objectives for Refining Discrete Diffusion Language Models

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

Multi-Token Residual Prediction

Efficient Conditioning Why Pseudo Observation Batch Bayesian Optimization Works When It Does not

Hybrid-LoRA: Bridging Full Fine-Tuning and Low-Rank Adaptation for Post-Training

Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models

Precision Tracked Transformer via Kalman Filtering, Kriging and Process Noise

Automated Big Data Quality Assessment using Knowledge Graph Embeddings

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

A Data-Driven Approach to Idiomaticity Based on Experts' Criteria in Theoretical Linguistics

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening