Page 4 sur 136

ToutHaut signalRécent
5430 articles
arXiv cs.LG·

In-Context Learning Operates as Concept Subspace Learning

Étude mécanistique de l'apprentissage en contexte (ICL) montrant que les démonstrations structurées induisent une inférence de concepts dans un sous-espace de faible dimension. Sur Llama-3-8B, un sous-espace de 68–73 dimensions sur 4096 restaure 78,8% de la performance, tandis que le sous-espace complémentaire n'a aucun effet. Résultats confirmés sur Qwen2.5-7B et tâches multilingues.

RaisonnementLlamaQwen
SIG
82
HYP
15
arXiv cs.AI·

Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

Algorithme IC-Q pour l'apprentissage décentralisé de workflows multi-agents avec contraintes d'interface. Chaque agent observe seulement une fonction locale de l'artefact partagé et son état privé, sans accès centralisé aux trajectoires jointes. Garantie de convergence en nombre fini d'échantillons pour Q-learning neuronal avec observabilité partielle décentralisée.

Multi-agentsReinforcement learningAgents IA
SIG
82
HYP
15
arXiv cs.CL·

ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking

ReacTOD combine neuro-symbolique et ReAct pour le dialogue orienté tâche. Une boucle ReAct bornée avec validation symbolique corrige itérativement les erreurs de dialogue (taux 93.1%), éliminant hallucinations et erreurs de format. Sur MultiWOZ 2.1 : gpt-oss-20B atteint 52.71% JGA (+14pp), Qwen3-8B 47.34%. Sur SGD : Claude-Opus 80.68%, Qwen3-32B 64.09%.

Agents IARaisonnementBenchmarks
SIG
82
HYP
18
arXiv cs.AI·

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench est un benchmark pour évaluer la délégation émergente dans les workflows multi-agents long-horizon. Le substrate inclut 11 modèles (7 familles), des tâches GAIA/tau-bench/BFCL, et des métriques multi-axes (qualité, coût, latence, fidélité de routage). Les résultats montrent que la qualité seule masque les signaux d'orchestration, et que le canal de livraison domine le contenu des descriptions.

Agents IAMulti-agentsBenchmarks
SIG
82
HYP
15
arXiv cs.LG·

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI est un routeur de cascade LLM qui utilise la calibration d'incertitude pour réduire les coûts d'inférence. Via régression isotonique, il mappe l'incertitude au niveau des tokens à une probabilité d'erreur par requête, puis sélectionne le seuil d'escalade par minimisation de coût. Sur 75 000 requêtes NER avec modèles 4B/12B, UCCI réduit les coûts de 31% tout en diminuant l'erreur de calibration de 0.12 à 0.03.

Agents IAÉvaluationsInfrastructure
SIG
82
HYP
15
arXiv cs.LG·

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling

Étude de 63 modèles de base montrant une transition de phase cachée : sous ~3.5B paramètres, raisonnement et véracité s'anticorrèlent ; au-delà, ils coopèrent. Architecture, données et recette d'entraînement décalent indépendamment ce seuil critique. Normalisation de largeur élimine l'anticorrélation ; modèles frontière atteignent r=+0.72. Outil open-source et dashboard diagnostique publiés.

BenchmarksAlignementRaisonnement
SIG
82
HYP
25
arXiv cs.AI·

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

PRISM est un benchmark de 10 372 paires instruction-code pour l'évaluation de la génération vidéo programmatique par LLM. Il propose 4 métriques : fiabilité du code, cohérence spatiale, complexité visuelle et densité temporelle. L'évaluation de 7 LLM révèle un écart d'exécution-spatial de 41% : le code exécutable ne garantit pas une sortie visuellement cohérente.

BenchmarksGénération de codeGénération de vidéos
SIG
82
HYP
15
arXiv cs.AI·

BlendedNet++: A dataset and benchmark for field-resolved aerodynamics and inverse design of blended wing body aircraft

BlendedNet++ est un dataset de 12 492 géométries d'avions Blended Wing Body (BWB) avec simulations RANS pour prédire les champs aérodynamiques. Les auteurs benchmarkent 5 architectures de deep learning (Transolver meilleur) et proposent un pipeline de conception inverse générative utilisant des modèles de diffusion conditionnels, validé par CFD avec R² > 0,99.

BenchmarksPapersGénération de code
SIG
82
HYP
18
arXiv cs.AI·

Qumus: Realization of An Embodied AI Quantum Material Experimentalist

Qumus est le premier système d'IA incarnée pour la science expérimentale : un robot de laboratoire autonome capable de générer des hypothèses, planifier des protocoles et exécuter des expériences sur matériaux quantiques 2D. Il a créé pour la première fois du graphène par IA et fabriqué des transistors via empilement van der Waals, avec correction d'erreurs en boucle fermée.

Agents IAMulti-agentsRobotique
SIG
82
HYP
35
arXiv cs.AI·

DBES: A Systematic Benchmark and Metric Suite for Evaluating Expert Specialization in Large-Scale MoEs

DBES est un cadre diagnostic pour évaluer la spécialisation des experts dans les modèles MoE (Mixture-of-Experts). Cinq métriques théoriques mesurent l'isolation de domaine et la spécialisation du routage. Tests sur Qwen, DeepSeek et GLM révèlent des paradigmes distincts. Post-training ciblé sur experts spécialisés améliore les performances de 66-94% avec 15% des ressources.

BenchmarksQwenDeepSeek
SIG
82
HYP
18
arXiv cs.AI·

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

GenoMAS est un framework multi-agent basé sur LLM pour l'analyse d'expression génique. Six agents spécialisés orchestrés via protocoles de passage de messages typés combinent workflows structurés et adaptabilité autonome. Sur le benchmark GenoTEX : 89,13% de corrélation pour le prétraitement, F1 de 60,48% pour l'identification de gènes (+10,61% et +16,85% vs état de l'art).

Multi-agentsAgents IAGénération de code
SIG
82
HYP
18
arXiv cs.AI·

An AI system to help scientists write expert-level empirical software

ERA, un système IA combinant LLM et Tree Search, génère automatiquement des logiciels scientifiques de niveau expert. Il a découvert 40 nouvelles méthodes en bioinformatique surpassant les meilleures méthodes humaines, généré 14 modèles épidémiologiques surpassant l'ensemble CDC pour les prévisions COVID-19, et produit des solutions expertes en analyse géospatiale et prédiction neuronale.

Agents IARaisonnementGénération de code
SIG
82
HYP
28
arXiv cs.AI·

WELD: The First Naturalistic Long-Period Small-Team Workplace Emotion Dataset for Ubiquitous Affective Computing

WELD est le premier dataset d'émotion en milieu professionnel naturel couvrant 30,1 mois (nov 2021 - mai 2024) avec 49 employés d'une entreprise chinoise. 733 780 vecteurs de probabilité d'expressions faciales 7-classes, validant trois phénomènes établis et révélant six régimes émotionnels asymétriques. Détecte un biais de modèle FER : surprédiction de « colère » sur visages asiatiques neutres (0,194 vs 0,05).

VisionÉvaluationsSécurité IA
SIG
82
HYP
15
arXiv cs.AI·

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

ScaleLogic, un framework de raisonnement logique synthétique, montre que l'RL peut enseigner le raisonnement long-horizon aux LLMs. Le coût d'entraînement suit une loi de puissance avec la profondeur de preuve (T ∝ D^γ, R² > 0.99), l'exposant γ augmentant de 1.04 à 2.60 avec l'expressivité logique. Les modèles entraînés sur des logiques plus expressives transfèrent mieux (+10.66 points sur benchmarks).

Reinforcement learningRaisonnementBenchmarks
SIG
82
HYP
18
arXiv cs.CL·

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

FinAuditing est un benchmark d'audit financier construit sur 1 102 instances XBRL réelles (33k tokens en moyenne). Il évalue 13 LLMs sur trois tâches : appariement sémantique, extraction de relations et raisonnement mathématique. Les résultats révèlent des lacunes significatives en récupération de concepts et raisonnement cross-document.

BenchmarksRaisonnementÉvaluations
SIG
82
HYP
18
arXiv cs.CL·

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

ProfBench est un benchmark de 7000+ paires réponse-critère évaluées par experts humains en physique, chimie, finance et conseil. Les auteurs proposent des LLM-judges robustes réduisant le coût d'évaluation de 2-3 ordres de magnitude. GPT-5-high atteint 65,9% de performance, révélant des écarts significatifs entre modèles propriétaires et open-weight.

BenchmarksÉvaluationsGPT
SIG
82
HYP
18
arXiv cs.AI·

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

Une étude arXiv démontre que les modèles Mixture-of-Experts (MoE) surpassent les architectures denses sous contraintes de ressources strictement égales (paramètres totaux, compute d'entraînement, données identiques). Les chercheurs identifient une région d'activation optimale cohérente entre tailles de modèles. Validation sur ~200 modèles 2B et 50 modèles 7B (50 trillions de tokens).

BenchmarksPapersRaisonnement
SIG
82
HYP
25
arXiv cs.AI·

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

RLBFF combine le feedback humain et les récompenses vérifiables pour l'entraînement de modèles de récompense. La méthode extrait des principes binaires du feedback naturel (ex: exactitude, lisibilité du code) et les utilise comme tâches d'entailment. Les modèles atteindent 86,2% sur RM-Bench et 81,4% sur JudgeBench (#1 septembre 2025). Qwen3-32B aligné avec RLBFF égale o3-mini et DeepSeek R1 à 5% du coût d'inférence.

Reinforcement learningÉvaluationsAlignement
SIG
82
HYP
25
arXiv cs.CL·

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 est une famille de modèles de langage de 3 milliards de paramètres entraînés sur des données synthétiques pour l'attribution d'évidences biomédicales et la vérification de faits. Elle surpasse ses modèles de base de +27% à +71% sur cinq benchmarks et rivalise avec GPT-5 tout en étant bien plus efficace. L'étude quantifie les hallucinations dans les réponses générées par LLM selon les instructions de citation.

BenchmarksFine-tuningÉvaluations
SIG
82
HYP
18
arXiv cs.AI·

SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition

SurgicalMamba, modèle basé sur Mamba2, reconnaît les phases chirurgicales en temps réel avec coût O(d) par frame. Trois composants adressent les défis spécifiques : dual-path SSD séparant régimes long/court-terme, stepping modulé en intensité adaptant le taux effectif, et state regramming pour mélange cross-canal. Résultats SOTA : 94.6%/82.7% sur Cholec80, 89.5%/68.9% sur AutoLaparo, 238.74 fps GPU.

RaisonnementBenchmarksVision
SIG
82
HYP
15
arXiv cs.CL·

The Point of No Return: Counterfactual Localization of Deceptive Commitment in Language-Model Reasoning

Étude sur le moment où un modèle de langage s'engage dans la tromperie. Via localisation contrefactuelle sur 5 environnements (bluff, labyrinthes, conseils financiers, vente auto, négociation), les auteurs analysent 1,46M phrases et 91,5B tokens. Les indices lexicaux ne généralisent pas, mais les features d'attention se transfèrent entre domaines.

RaisonnementSécurité IAAlignement
SIG
82
HYP
15
arXiv cs.CL·

MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair

MemRepair est un framework d'agent augmenté par mémoire pour la réparation de vulnérabilités au niveau du dépôt. Il combine trois couches mémoire (History-Fix, Security-Pattern, Refinement-Trajectory) avec une boucle de raffinement itérative. Évalué sur SEC-Bench, PatchEval et Multi-SWE-bench, MemRepair atteint 58.0%, 58.2% et 30.58% de taux de résolution, surpassant OpenHands, SWE-agent et InfCode-C++.

Agents IAGénération de codeSécurité IA
SIG
82
HYP
18