Page 13 sur 137

ToutHaut signalRécent
5477 articles
arXiv cs.AI·

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas propose une évaluation multidimensionnelle des agents LLM au-delà des simples taux de succès. L'étude introduit une taxonomie de 6 états de contrôle, une taxonomie d'erreurs à 9 catégories, et audite 15 benchmarks existants. Sur 8 modèles (4 fermés, 4 open-weight), retirer les labels explicites réduit la précision de 14-40 pp, révélant une dépendance forte au prompt.

Agents IABenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

COSMO-Agent, un framework RL augmenté d'outils, entraîne des LLM à orchestrer des processus CAD-CAE itératifs. Le système apprend à générer de la géométrie paramétrique, résoudre des simulations et réviser les designs sous contraintes multiples. Dataset industriel de 25 catégories de composants. Les petits LLM entraînés surpassent les modèles fermés en faisabilité et stabilité.

Agents IAReinforcement learningOutils
SIG
78
HYP
25
arXiv cs.LG·

Provable Joint Decontamination for Benchmarking Multiple Large Language Models

JECS (Joint Envelope Conformal Selection) est une méthode pour décontaminer les benchmarks d'évaluation LLM en contrôlant le taux de contamination global (GCR) entre plusieurs modèles. Elle agrège les p-valeurs conformales par modèle et applique la procédure Benjamini-Hochberg adaptée pour sélectionner un benchmark fiable sans biais de comparaison croisée.

BenchmarksÉvaluationsSécurité IA
SIG
78
HYP
15
arXiv cs.LG·

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

GOEN (Geometry-Optimised Epistemic Network) combine features multi-échelles, normalisation L2, distance de Mahalanobis et calibration pour détecter les entrées hors-distribution. Découverte clé : CenterLoss dégrade la détection OOD (AUROC 0.9366 vs 0.9483 sans), bien qu'il améliore la précision. GOEN-NoCenterLoss atteint 0.9483 AUROC sur CIFAR-10, surpassant ensembles profonds (0.8827), KNN (0.8967) et ODIN (0.8870).

Sécurité IAÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.LG·

Embedding-Based Federated Learning with Runtime Governance for Iron Deficiency Prediction

Déploiement réel d'un pipeline federated learning pour prédire la carence en fer à partir de données de numération formule sanguine. Utilise DeepCBC (modèle fondation haematologie gelé) + FedMAP (agrégation personnalisée). Testé sur deux sites cliniques (AUMC, NHSBT) avec données non-IID. FedMAP améliore ROC-AUC de 0.947→0.959 (AUMC) et 0.856→0.867 (NHSBT) vs entraînement local.

EmbeddingsBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Sem-Detect: Semantic Level Detection of AI Generated Peer-Reviews

Sem-Detect détecte les avis de relecture générés par IA en analysant les caractéristiques textuelles et sémantiques au niveau des affirmations. La méthode compare un avis cible à plusieurs avis générés par IA du même article, exploitant la convergence des modèles IA versus la diversité des reviewers humains. Sur 20 000+ avis ICLR/NeurIPS, Sem-Detect améliore la baseline de 25,5% en TPR@0.1% FPR.

ÉvaluationsSécurité IAPapers
SIG
78
HYP
15
arXiv cs.CL·

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge est un générateur de benchmark pour évaluer les LLM utilisés comme juges sur des conversations multi-tours ancrées dans des documents de référence. Le système crée des paires de conversations avec une faille injectée dans un tour, permettant un étiquetage sans ambiguïté. Évaluation de 21 juges LLM frontier avec classement via le modèle Bradley-Terry sur ML, biomédecine et finance.

ÉvaluationsBenchmarksMulti-agents
SIG
78
HYP
15
arXiv cs.AI·

PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

PlanningBench est un framework pour générer des données de planification scalables et vérifiables. Il abstrait 30+ types de tâches et facteurs de difficulté à partir de scénarios réels, puis synthétise des problèmes avec contrôle adaptatif et vérification automatique. L'entraînement par RL sur ces données améliore les performances sur des benchmarks non vus.

BenchmarksRaisonnementReinforcement learning
SIG
78
HYP
22
arXiv cs.AI·

ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving

ScenePilot génère des scénarios critiques pour tester les systèmes de conduite autonome via apprentissage par renforcement multi-objectif. Le framework combine une mesure de faisabilité physique (RSS) avec un prédicteur de risque pour cibler les scénarios à la limite : physiquement possibles mais causant des défaillances. Résultats : +6,2 points de collision sur SafeBench tout en préservant la validité physique.

Reinforcement learningSécurité IAÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

DeepWeb-Bench est un benchmark de recherche profonde évaluant 9 modèles frontière sur des tâches exigeant collecte massive d'evidence, réconciliation cross-source et dérivation multi-étapes longue. Les erreurs proviennent surtout de la dérivation et calibration (>70%), pas de la retrieval (12-14%). Les modèles forts et faibles échouent différemment : dérivation incomplète vs hallucination de précision.

BenchmarksRaisonnementAgents IA
SIG
78
HYP
25
arXiv cs.AI·

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Étude arXiv sur les lois de scaling des données : la couverture progressive d'un spectre latent de contributions prédictives (via automate de suffixes) corrèle fortement avec l'exposant de scaling empirique. Sur 12 corpus réels, log K(N) suit une relation quasi-linéaire avec log N (R²≈0.96), suggérant que l'entraînement avance une frontière effective à travers un spectre d'états prédictifs.

BenchmarksPapersRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

From Parameters to Data: A Task-Parameter-Guided Fine-Tuning Pipeline for Efficient LLM Alignment

P2D, un framework d'alignement LLM, couple sélection de données et fine-tuning efficace en paramètres. En identifiant les têtes d'attention critiques pour chaque tâche, P2D mine des données pertinentes et élaguer 90% des paramètres. Résultat : +8.3pp de performance et 7.0x d'accélération avec seulement 10% des données et 10% des têtes.

Fine-tuningRaisonnementAlignement
SIG
78
HYP
25
arXiv cs.LG·

When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning

Les auteurs identifient que la fiabilité des tokens du teacher en auto-distillation dépend de leur position dans la trajectoire de raisonnement, pas de l'entropie locale. Ils proposent PW-OPSD, qui pondère les tokens par position croissante. Sur Qwen3-4B, AIME 2024/2025 gagnent +1.0/+1.1 points; validation sur DeepSeek-R1-Distill-Llama-8B et Olmo-3-7B-Think confirme les gains.

RaisonnementFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

Étude sur 6,620 exécutions montrant que Claude Haiku compresse 10 modifieurs d'intensité anglais en 5 sorties distinctes. Le contexte d'état système domine l'effet lexical (variance expliquée : 0,782 vs 0,079). Près des limites opérationnelles, le modèle adopte trois modes : petits ajustements pour mots faibles, abstention pour mots forts, plafonnement pour « drastically ».

ClaudeÉvaluationsRaisonnement
SIG
78
HYP
15
Reddit r/LocalLLaMA·

Agent Execution Tax: new procurement metric for browser agent benchmarks?

Benchmark WebVoyager sur 720 tâches d'agents navigateur : MiniMax M2.5 coûte 2,3× moins cher par tâche réussie que Gemini 2.5 Flash. GLM-5 atteint 57,1% d'accuracy, Kimi K2.5 affiche 0% d'erreurs de parsing. Les modèles open-weight surpassent Gemini non par intelligence mais par fiabilité. Le coût réel dépasse le prix au token une fois les retries comptabilisés.

Agents IABenchmarksOpen source
SIG
78
HYP
25
arXiv cs.LG·

Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining

DG-Hard, une méthode spectrale post-hoc, récupère les capacités endommagées par le fine-tuning sans réentraînement. Elle applique un seuillage SVD dur (Donoho-Gavish) aux matrices de poids pour isoler le signal aligné sur la tâche du bruit résiduel. Testée sur 14 configurations (modèle, tâche) et 9 benchmarks, elle restaure aussi l'alignement de sécurité dégradé.

Fine-tuningSécurité IAAlignement
SIG
78
HYP
18
arXiv cs.LG·

Weasel: Out-of-Domain Generalization for Web Agents via Importance-Diversity Data Selection

Weasel est une méthode de sélection de trajectoires pour l'entraînement hors ligne d'agents web. Elle optimise un équilibre entre importance et diversité sur les états, sites et patterns d'interaction, avec élagage d'AXTree centré sur la cible. Sur WebArena, WorkArena et MiniWob, elle améliore la généralisation hors-domaine avec des accélérations d'entraînement de 9.7-12.5× sur Qwen2.5-7B, Gemma3-4B et Qwen3-8B.

Agents IAFine-tuningBenchmarks
SIG
78
HYP
18