Page 48 sur 192

ToutHaut signalRécent

7679 articles

SLASH the Sink: Sharpening Structural Attention Inside LLMs

Les LLMs reconstruisent spontanément la topologie des graphes via des patterns d'attention « sawtooth », mais cette compréhension structurelle est diluée par l'attention sink. SLASH, une solution sans entraînement, réamplifie cette compréhension via une redistribution d'attention plug-and-play, montrant des gains significatifs sur tâches graphiques et prédiction moléculaire.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Convergence of Multiagent Learning Systems for Traffic control

Étude théorique de la convergence d'algorithmes MARL pour le contrôle du trafic urbain. Les auteurs formalisent la stabilité des systèmes multi-agents utilisant Q-learning indépendant sur chaque feu tricolore, en étendant les preuves de convergence de l'itération de valeur asynchrone au cas multi-agent via approximation stochastique.

Multi-agents Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·19 mai

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

Benchmark de LLMs sur la classification multi-label du traitement des précédents juridiques. Dataset expert-annoté de 239 citations réelles. Gemini 2.5 Flash atteint 79,1% en classification haut-niveau, GPT-5-mini 67,7% en schéma fin-grained. Nouvelle métrique Average Severity Error pour mesurer l'impact pratique des erreurs.

Benchmarks Gemini GPT

SIG

HYP

arXiv cs.AI·19 mai

Weather-Robust Cross-View Geo-Localization via Prototype-Based Semantic Part Discovery

SkyPart, une tête légère pour vision transformers, améliore la géolocalisation croisée drone-satellite en séparant explicitement la disposition et la texture via prototypes apprenables. Avec 26.95M paramètres, elle atteint l'état de l'art sur SUES-200, University-1652 et DenseUAV, avec robustesse accrue sous corruptions météorologiques.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

ECHO est un modèle de diffusion pour la génération de rapports de radiographie thoracique. Il utilise une distillation conditionnelle directe et un entraînement asymétrique pour générer des rapports en une seule étape par bloc, réduisant la latence d'inférence de 8× tout en améliorant RaTE (+64,33%) et SemScore (+60,58%) par rapport aux méthodes autorégressives.

Vision Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Herding CATs: ALARA for Agent Harness Engineering in Portable Composable Multi-Agent Teams

Papier présentant CAT (Context-Agent-Tool), une couche de données pour gérer les équipes multi-agents. Applique le principe ALARA (exposition minimale raisonnable) au contexte. Évalue 22 modèles (0.6B–35B paramètres) sur 115 tâches pratiques via npcsh, un shell CLI. ~2500 exécutions testent opérations fichiers, recherche web, scripting multi-étapes, chaînage d'outils et délégation inter-agents.

Multi-agents Agents IA Outils

SIG

HYP

arXiv cs.AI·19 mai

Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity

Article théorique sur la récupération d'actions latentes et de dynamiques d'environnement à partir de trajectoires hors ligne sans observations d'actions. Les auteurs exploitent la diversité des démonstrateurs (chacun suivant une politique distincte) pour identifier les noyaux de transition latents via factorisation matricielle non-négative. Identifiabilité prouvée sous conditions de rang et diversité de politique.

Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

CounterRefine est une couche de réparation légère pour RAG qui traite la première réponse comme une hypothèse à tester. Le système émet des requêtes d'expansion conditionnées par la réponse pour récupérer des preuves spécifiques, puis applique une étape de raffinement KEEP/REVISE validée déterministiquement. Sur SimpleQA, il améliore un baseline RAG de 5,8 points de taux correct.

RAG Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Spherical VAE with Cluster-Aware Feasible Regions: Guaranteed Prevention of Posterior Collapse

Nouvelle méthode VAE utilisant la géométrie sphérique et des contraintes cluster-aware pour éliminer mathématiquement l'effondrement postérieur. Transforme les données en coque sphérique, applique K-means, définit une région faisable entre variance intra-cluster et perte d'effondrement. Garantit 100% de prévention d'effondrement sans surcharge computationnelle ni restrictions sur le décodeur.

Papers Évaluations

SIG

HYP

arXiv cs.AI·19 mai

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

DARC est une méthode d'inférence sans réentraînement qui reformule la sélection de réponses comme une optimisation robuste face aux désaccords d'annotateurs. Elle reclasse les candidats en maximisant un objectif de satisfaction robuste aux divergences KL, avec contrôles de déploiement pour limiter le risque entropique sans réentraînement.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·19 mai

WASIL: In-the-Wild Arabic Spoken Interactions with LLMs

WASIL est un dataset d'interactions vocales arabes en conditions réelles avec des LLMs : 8 529 tours avec audio, hypothèses ASR, réponses d'assistant et feedback like/dislike (14,2% dislikes). Inclut 2 000 tours de test couvrant l'arabe standard et 4 dialectes majeurs. Annotations d'answerabilité pour isoler les erreurs ASR des limitations intrinsèques.

Voix Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de credit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

Une étude arXiv révèle que les modèles Mixture of Experts ne spécialisent pas réellement les experts par domaine comme supposé. Le framework COMMITTEEAUDIT identifie un « Standing Committee » — un groupe compact d'experts qui capture la majorité du routage indépendamment du domaine. Les experts périphériques gèrent seuls la connaissance spécifique au domaine.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory

Evo-Memory est un benchmark pour évaluer l'évolution de la mémoire dans les agents LLM. Il structure les données en flux de tâches séquentiels et teste 10+ modules de mémoire sur 10 datasets. Les auteurs proposent ExpRAG pour la réutilisation d'expérience et ReMem, un pipeline action-think-memory pour l'amélioration continue.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.LG·19 mai

A Theory of Training Profit-Optimal LLMs

Modèle économique combinant lois de scaling et théorie microéconomique pour caractériser l'optimisation des profits dans l'entraînement des LLM. Analyse comment la taille du modèle, le budget en tokens et les coûts computationnels interagissent. En régime compute-bound, la dépense optimale suit l'efficacité matérielle (FLOPs/$) quasi-linéairement. En régime data-bound, elle évolue en D²/E.

Benchmarks Papers Business

SIG

HYP

arXiv cs.AI·19 mai

SonarSweep: Fusing Sonar and Vision for Robust 3D Reconstruction via Plane Sweeping

SonarSweep fusionne sonar et vision pour la reconstruction 3D sous-marine via plane sweeping. Le framework deep learning end-to-end dépasse les approches mono-modales en adaptant l'algorithme plane sweep à la fusion cross-modale. Résultats en simulation et environnements réels, dataset public avec données stéréo-caméra et sonar synchronisées.

Vision Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

LiRA, un framework de fine-tuning léger, améliore l'adaptation multilingue des LLM pour les langues peu dotées. Il combine Arca (alignement basé sur des ancres vers l'anglais) et LaSR (tête sémantique consciente de la langue) pour stabiliser les représentations et la cohérence cross-linguale. Résultats positifs sur retrieval, ranking, QA et reasoning. Dataset multilingue (7 langues asiatiques) et code en open-source.

Fine-tuning RAG Embeddings

SIG

HYP

arXiv cs.AI·19 mai

The threat of analytic flexibility in using large language models to simulate human data

Étude arXiv montrant que les choix analytiques (sélection de modèle, paramètres, format de prompt, données démographiques) affectent significativement la fidélité des « silicon samples » (données synthétiques générées par LLM). Sur 252 configurations testées, les corrélations avec les données humaines varient de r=.23 à r=.84, révélant un risque majeur de flexibilité analytique.

Llama Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG est un framework RAG multi-modal qui récupère et intègre des connaissances de sources hétérogènes (texte, images, vidéos) à granularités variables. Il introduit le routage conscient de la modalité pour éviter le biais intra-modal et organise chaque modalité en niveaux de granularité. Validé sur 10 benchmarks, il surpasse les baselines mono-modales et unifiées.

RAG Vision Génération de vidéos

SIG

HYP

arXiv cs.AI·19 mai

Robust Agent Compensation (RAC): Teaching AI Agents to Compensate

RAC (Robust Agent Compensation) est un paradigme de récupération basé sur les logs qui s'intègre aux frameworks d'agents (LangGraph, LangChain) pour éviter les effets secondaires non intentionnels. Implémentation sans modification du code existant. Résultats : 1.5-8X meilleur en latence et économie de tokens vs approches LLM actuelles sur τ-bench et REALM-Bench.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Code as Agent Harness

Étude systématique de code comme infrastructure d'agents IA. Trois couches : interface de harness (code connecte raisonnement, action, modélisation d'environnement), mécanismes (planification, mémoire, utilisation d'outils, feedback), et passage à l'échelle multi-agents. Applications : assistants de code, automatisation GUI/OS, agents incarnés, découverte scientifique, DevOps.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·19 mai

CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark

CrossView Suite introduit CrossViewSet (1.6M échantillons multi-vues), CrossViewBench (benchmark d'évaluation) et CrossViewer (framework trois étapes : Perception → Alignment → Reasoning) pour améliorer le raisonnement spatial multi-vues des MLLMs. Un moteur multi-agent génère des données annotées couvrant 17 types de tâches fine-grained.

Vision Benchmarks Papers

SIG

HYP

Vercel AI Blog·18 mai

Run Claude Managed Agents with Vercel Sandbox

Vercel intègre Claude Managed Agents dans Vercel Sandbox. Les agents tournent dans des microVMs Firecracker isolées avec accès aux APIs privées et données client. Credential brokering et deny-by-default egress sécurisent l'exécution.

Claude Agents IA Infrastructure

SIG

HYP

Reddit r/MachineLearning·18 mai

MLRC 2026 is open for submissions - an official track at NeurIPS 2026 [N]

Le Machine Learning Reproducibility Challenge 2026 ouvre ses soumissions comme piste officielle de NeurIPS 2026 à Sydney en décembre. Les travaux acceptés via TMLR seront présentables à la conférence.

Papers Benchmarks Évaluations

SIG

HYP

Hacker News (AI)·18 mai

Anthropic acquires Stainless

Anthropic acquiert Stainless, une startup spécialisée dans la génération de SDK et d'outils de développement. L'acquisition renforce les capacités d'Anthropic en matière d'infrastructure et d'outillage pour les développeurs utilisant Claude.

Anthropic Claude Outils

SIG

HYP

Hugging Face Blog·18 mai

The Open Agent Leaderboard

Hugging Face lance un leaderboard public pour évaluer les agents IA open-source. La plateforme classe les modèles selon leur capacité à accomplir des tâches complexes, avec benchmarks reproductibles et transparence des résultats.

Agents IA Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·18 mai

Reviving PapersWithCode (by Hugging Face) [P]

Hugging Face relance PapersWithCode avec agents IA pour parser automatiquement les papers et générer des leaderboards. Le site inclut trending papers, catégorisation par domaine, résultats d'éval (Qwen 3.5, RF-DETR, DINOv3), leaderboards (MMTEB, COCO), citations, repos GitHub liés, et support papers externes (DeepSeek v4). Disponible sur paperswithcode.co.

Agents IA Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·17 mai

Program misleading high school students into paying to perform academic misconduct in ML Research [D]

Un programme payant (Algoverse AI Research) commercialisé auprès de lycéens produit massivement des publications NeurIPS 2025 (289 acceptations revendiquées) contenant des erreurs évidentes : résultats dupliqués, abstracts contradictoires avec les résultats, citations générées par IA, données non relues. Kevin Zhu, affilié au programme, cumule 158 publications et 468 coauteurs sur OpenReview.

Papers Évaluations Régulation

SIG

HYP

Latent Space·16 mai

[AINews] Cerebras' $60B IPO: Slowly, then All at Once

Cerebras annonce un IPO de 60 milliards de dollars. L'entreprise spécialisée dans les processeurs IA accélère son expansion commerciale après des années de développement technologique.

Infrastructure

SIG

HYP

Simon Willison·15 mai

datasette-agent 0.1a2

Sortie de datasette-agent 0.1a2 avec système de permissions. Les outils d'agent en arrière-plan nécessitent désormais la permission `datasette-agent-background`. Disponibilité des outils liée aux permissions requises.

Agents IA Outils Open source

SIG

HYP

Hugging Face Blog·14 mai

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

IBM et Hugging Face publient Granite Embedding Multilingual R2, un modèle d'embeddings open-source sous licence Apache 2.0. Le modèle supporte 32K tokens de contexte et offre la meilleure qualité de retrieval dans sa catégorie sub-100M paramètres sur plusieurs langues.

Embeddings Open source RAG

SIG

HYP

Vercel AI Blog·14 mai

Protected Source Maps: Ship browser source maps securely

Vercel introduit les Protected Source Maps, qui restreignent l'accès aux fichiers .map en production via Vercel Authentication. Les équipes autorisées peuvent les consulter pour déboguer le code minifié ; les autres reçoivent une erreur 404. Activé par défaut pour les nouveaux projets.

Outils Infrastructure

SIG

HYP

Vercel AI Blog·13 mai

Trusted Sources for Deployment Protection

Vercel introduit Trusted Sources, un mécanisme de sécurité utilisant des tokens OIDC de courte durée pour autoriser les déploiements protégés sans partager de secrets long-lived. Les projets Vercel et services externes (GitHub Actions, etc.) peuvent être autorisés via des règles from/to configurables par environnement.

Infrastructure Sécurité IA Outils

SIG

HYP

Simon Willison·12 mai

llm 0.32a2

llm 0.32a2 ajoute le support du endpoint `/v1/responses` d'OpenAI pour les modèles reasoning-capable (GPT-5 class). Affiche les tokens de reasoning résumés en couleur différente. Flags `-R` ou `--hide-reasoning` pour masquer.

OpenAI Raisonnement Outils

SIG

HYP

Vercel AI Blog·12 mai

AI Gateway production index

Vercel publie un index de production basé sur 7 mois de trafic AI Gateway (200K+ équipes). En avril 2026 : par dépense, Anthropic 61%, Google 21%, OpenAI 12% ; par volume de tokens, Google 38%, Anthropic 26%, OpenAI 13%, xAI 10%. Les modèles premium (Claude Opus) dominent les cas critiques, les modèles rapides bon marché (Gemini Flash) le volume.

Benchmarks Claude Gemini

SIG

HYP

Vercel AI Blog·11 mai

Automate progressive rollouts with Vercel Flags

Vercel Flags supporte désormais les progressive rollouts, permettant de déployer une feature à un pourcentage croissant d'utilisateurs selon un calendrier prédéfini. Contrairement aux weighted splits fixes, chaque étape a un pourcentage cible et une durée, capturant les régressions sur un petit groupe avant déploiement complet. Disponible via dashboard et CLI.

Outils Infrastructure

SIG

HYP

Simon Willison·10 mai

Quoting New York Times Editors’ Note

Le New York Times a dû corriger un article après avoir découvert qu'une citation attribuée à Pierre Poilievre provenait d'un résumé généré par IA, non d'un discours réel. Le journal a remplacé la fausse citation par une vraie déclaration de Poilievre d'avril 2026.

Sécurité IA Alignement

SIG

HYP

Vercel AI Blog·8 mai

Chat SDK adds Messenger adapter support

Vercel Chat SDK ajoute un adaptateur Messenger permettant de construire des bots multi-plateforme (Slack, Discord, GitHub, Teams, Telegram). Support des messages, réactions, pièces jointes et boutons postback. Limitations : pas d'historique, édition ou suppression de messages.

Outils Agents IA Open source

SIG

HYP

Vercel AI Blog·8 mai

Chat SDK now supports conversation history

Vercel AI SDK supporte désormais l'historique de conversation cross-platform via les options transcripts et identity. Les messages persistent sur tous les adapters, permettant aux utilisateurs de conserver leur historique quel que soit le canal. Quatre méthodes disponibles : append, list, count, delete.

Outils Agents IA RAG

SIG

HYP

Latent Space·7 mai

[AINews] Anthropic-SpaceXai's 300MW/$5B/yr deal for Colossus I, ARR growth is 8000% annualized

Anthropic et SpaceX signent un accord de 5 milliards de dollars par an pour 300 MW d'électricité destinés à Colossus I, le supercalculateur d'Anthropic. La croissance annualisée du revenu récurrent (ARR) atteint 8000%.

Anthropic Infrastructure Business

SIG

HYP