Page 6 sur 192

ToutHaut signalRécent

7679 articles

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

ProfBench introduit un benchmark de 7000+ paires réponse-critères évaluées par experts (PhD Physique/Chimie, MBA Finance/Consulting). Les meilleurs modèles (GPT-5-high) atteignent 65,9% de performance. Les auteurs proposent des LLM-Judges robustes réduisant les coûts d'évaluation de 2-3 ordres de magnitude.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.AI·19 mai

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

RLBFF combine le feedback humain et les récompenses vérifiables pour l'entraînement de modèles de récompense. La méthode extrait des principes binaires du feedback naturel (ex: exactitude, lisibilité du code) et les utilise comme tâches d'entailment. Les modèles atteindent 86,2% sur RM-Bench et 81,4% sur JudgeBench (#1 septembre 2025). Qwen3-32B aligné avec RLBFF égale o3-mini et DeepSeek R1 à 5% du coût d'inférence.

Reinforcement learning Évaluations Alignement

SIG

HYP

arXiv cs.AI·19 mai

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

Une étude arXiv démontre que les modèles Mixture-of-Experts (MoE) surpassent les architectures denses sous contraintes de ressources strictement égales (paramètres totaux, compute d'entraînement, données identiques). Les chercheurs identifient une région d'activation optimale cohérente entre tailles de modèles. Validation sur ~200 modèles 2B et 50 modèles 7B (50 trillions de tokens).

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

ProfBench est un benchmark de 7000+ paires réponse-critère évaluées par experts humains en physique, chimie, finance et conseil. Les auteurs proposent des LLM-judges robustes réduisant le coût d'évaluation de 2-3 ordres de magnitude. GPT-5-high atteint 65,9% de performance, révélant des écarts significatifs entre modèles propriétaires et open-weight.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.CL·19 mai

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

FinAuditing est un benchmark d'audit financier construit sur 1 102 instances XBRL réelles (33k tokens en moyenne). Il évalue 13 LLMs sur trois tâches : appariement sémantique, extraction de relations et raisonnement mathématique. Les résultats révèlent des lacunes significatives en récupération de concepts et raisonnement cross-document.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Scaling Laws for Code: A More Data-Hungry Regime

Étude empirique de 117 expériences (0.2B–3.8B paramètres, 2B–128B tokens) sur les lois de scaling pour les Code LLMs. Le code nécessite un ratio données/paramètres plus élevé que le langage naturel. La loi de Farseer surpasse Chinchilla. Les mélanges code-NL bénéficient au NL en ressources limitées, mais le pénalisent à budgets élevés.

Génération de code Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

ScaleLogic, un framework de raisonnement logique synthétique, montre que l'RL peut enseigner le raisonnement long-horizon aux LLMs. Le coût d'entraînement suit une loi de puissance avec la profondeur de preuve (T ∝ D^γ, R² > 0.99), l'exposant γ augmentant de 1.04 à 2.60 avec l'expressivité logique. Les modèles entraînés sur des logiques plus expressives transfèrent mieux (+10.66 points sur benchmarks).

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

Une étude arXiv montre que les modèles Mixture-of-Experts (MoE) peuvent surpasser les architectures denses sous contraintes de ressources égales (paramètres, compute, données). Les chercheurs identifient une région d'activation optimale cohérente entre tailles de modèles. Validation sur ~200 modèles 2B et 50 modèles 7B (50 trillions de tokens).

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning

BioProAgent combine LLMs et machines à états finis pour planifier des expériences biologiques en laboratoire. Le système applique un workflow Design-Verify-Rectify et réduit la consommation de tokens de 6× via abstraction symbolique. Sur BioProBench, il atteint 95.6% de conformité physique vs 21.0% pour ReAct.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Reinforcement Learning for LLM Post-Training: A Survey

Étude complète des méthodes de post-entraînement par renforcement pour LLM. Unifie RLHF (DPO), RLVR (PPO, GRPO) et SFT dans un cadre unique de policy gradient. Analyse technique détaillée des approches offline et itératives, avec notation standardisée pour comparaison directe.

Reinforcement learning Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

WELD: The First Naturalistic Long-Period Small-Team Workplace Emotion Dataset for Ubiquitous Affective Computing

WELD est le premier dataset d'émotion en milieu professionnel naturel couvrant 30,1 mois (nov 2021 - mai 2024) avec 49 employés d'une entreprise chinoise. 733 780 vecteurs de probabilité d'expressions faciales 7-classes, validant trois phénomènes établis et révélant six régimes émotionnels asymétriques. Détecte un biais de modèle FER : surprédiction de « colère » sur visages asiatiques neutres (0,194 vs 0,05).

Vision Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

An AI system to help scientists write expert-level empirical software

ERA, un système IA combinant LLM et Tree Search, génère automatiquement des logiciels scientifiques de niveau expert. Il a découvert 40 nouvelles méthodes en bioinformatique surpassant les meilleures méthodes humaines, généré 14 modèles épidémiologiques surpassant l'ensemble CDC pour les prévisions COVID-19, et produit des solutions expertes en analyse géospatiale et prédiction neuronale.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

GenoMAS est un framework multi-agent basé sur LLM pour l'analyse d'expression génique. Six agents spécialisés orchestrés via protocoles de passage de messages typés combinent workflows structurés et adaptabilité autonome. Sur le benchmark GenoTEX : 89,13% de corrélation pour le prétraitement, F1 de 60,48% pour l'identification de gènes (+10,61% et +16,85% vs état de l'art).

Multi-agents Agents IA Génération de code

SIG

HYP

arXiv cs.AI·19 mai

OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents

Étude sur la latence des agents informatiques sur OSWorld : les appels LLM pour la planification et la réflexion dominent le temps total. Les 16 agents testés nécessitent 2,7-4,3× plus d'étapes que les trajectoires humaines optimales. Chaque étape successive prend 3× plus longtemps.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Pocket Foundation Models: Distilling TFMs into CPU-Ready Gradient-Boosted Trees

Distillation de modèles fondamentaux tabulaires (TabICLv2) en arbres boostés (XGBoost/CatBoost) pour inférence CPU ultra-rapide. Résout le problème d'effondrement des soft targets via étiquetage out-of-fold stratifié. Sur 153 datasets : 0.882 macro-mean AUC (96.5% du teacher) en 1.9 ms CPU, speedup 38-860x. Pipeline open-source TabTune.

Fine-tuning Benchmarks Open source

SIG

HYP

arXiv cs.AI·19 mai

GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets

GAMMA est un framework de quantization mixte pour LLMs qui alloue automatiquement la précision par module sans entraînement. Utilisant une reconstruction d'états cachés et la programmation entière, il atteint +12.99 points vs baselines fixes sur Llama/Qwen 8B-32B, et égale la qualité 3-bit à 2.5-bit moyen.

Llama Qwen Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Qumus: Realization of An Embodied AI Quantum Material Experimentalist

Qumus est le premier système d'IA incarnée pour la science expérimentale : un robot de laboratoire autonome capable de générer des hypothèses, planifier des protocoles et exécuter des expériences sur matériaux quantiques 2D. Il a créé pour la première fois du graphène par IA et fabriqué des transistors via empilement van der Waals, avec correction d'erreurs en boucle fermée.

Agents IA Multi-agents Robotique

SIG

HYP

arXiv cs.AI·19 mai

Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents

Étude à grande échelle de 64 380 exécutions SWE-bench couvrant 126 configurations d'agents (43 frameworks × LLMs). Les règles comportementales dérivées d'un seul framework ne se transfèrent pas : le même signal (ex. taux d'erreur) corrèle positivement avec la résolution dans 47 configs et négativement dans 48. L'identité du framework explique 64% de la variance contre 10% pour la famille LLM.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.CL·19 mai

Firefly: Illuminating Large-Scale Verified Tool-Call Data Generation from Real APIs

FireFly génère des données vérifiées pour l'entraînement d'agents tool-calling à partir de vrais serveurs MCP. Le pipeline inverse la synthèse standard : exploration d'APIs réelles via structures DAG, puis génération rétroactive de tâches à partir des résultats observés. 5 144 tâches vérifiées sur 240 serveurs et 993 outils. Un modèle 4B entraîné avec GRPO égale Claude Sonnet sur le test set.

Agents IA MCP Génération de code

SIG

HYP

arXiv cs.CL·19 mai

Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning

Hilbert-Geo introduit un cadre formel unifié pour la géométrie solide via Parse2Reason : parsing en langage CDL (Conditional Description Language) puis raisonnement avec théorèmes. Atteint 77,3% sur SolidFGeo2k et 84,1% sur MathVerse-Solid, surpassant Gemini-2.5-pro (54,2%) et GPT-5 (62,9%). Deux datasets annotés : SolidFGeo2k et PlaneFGeo3k.

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair

MemRepair est un framework d'agent augmenté par mémoire pour la réparation de vulnérabilités au niveau du dépôt. Il combine trois couches mémoire (History-Fix, Security-Pattern, Refinement-Trajectory) avec une boucle de raffinement itérative. Évalué sur SEC-Bench, PatchEval et Multi-SWE-bench, MemRepair atteint 58.0%, 58.2% et 30.58% de taux de résolution, surpassant OpenHands, SWE-agent et InfCode-C++.

Agents IA Génération de code Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

DBES: A Systematic Benchmark and Metric Suite for Evaluating Expert Specialization in Large-Scale MoEs

DBES est un cadre diagnostic pour évaluer la spécialisation des experts dans les modèles MoE (Mixture-of-Experts). Cinq métriques théoriques mesurent l'isolation de domaine et la spécialisation du routage. Tests sur Qwen, DeepSeek et GLM révèlent des paradigmes distincts. Post-training ciblé sur experts spécialisés améliore les performances de 66-94% avec 15% des ressources.

Benchmarks Qwen DeepSeek

SIG

HYP

arXiv cs.CL·19 mai

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B. Code open-source disponible.

Reinforcement learning Benchmarks Open source

SIG

HYP

arXiv cs.CL·19 mai

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injecter des brouillons mathématiquement faux d'un petit modèle (Qwen2.5-Math-1.5B) mal appariés au problème courant dans le contexte GRPO d'un modèle plus fort (Mathstral-7B) surpasse le GRPO standard. Sur MATH-500, le variant mal apparié atteint 71,98% (meilleur résultat publié pour ce modèle), +1,62pp vs variant bien apparié, sans SFT ni modèles de récompense.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts

PARALLAX révèle que 4 des 6 benchmarks majeurs de détection d'hallucinations contiennent la réponse correcte dans le prompt, permettant à une baseline naïve (TxTemb) d'atteindre une détection quasi-parfaite sans accès aux états internes du modèle. Évaluation de 22 méthodes sur 12 modèles open-source : la plupart échouent en conditions contrôlées, sauf SAPLMA et DRIFT (probes supervisées sur états cachés supérieurs).

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy

Les modèles de langage en pipelines multi-agents basculent vers des réponses incorrectes sous désaccord simulé (yield). Contrairement à l'hypothèse courante, ce n'est pas l'RLHF qui en est responsable : les modèles de base non-alignés montrent le même pattern. L'activation patching localise la corruption dans une fenêtre mid-layer étroite. Un seul dissenseur argumentant correctement réduit le yield de 54-73 points.

Multi-agents Alignement Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

Orthrus combine un LLM autorégressif et un modèle de diffusion via une architecture duale unifiée. Le framework ajoute un module léger à un Transformer gelé pour générer des tokens en parallèle tout en conservant la fidélité exacte du modèle autorégressif. Speedup jusqu'à 7.8x avec surcharge mémoire O(1).

Raisonnement Génération de code Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

BlendedNet++: A dataset and benchmark for field-resolved aerodynamics and inverse design of blended wing body aircraft

BlendedNet++ est un dataset de 12 492 géométries d'avions Blended Wing Body (BWB) avec simulations RANS pour prédire les champs aérodynamiques. Les auteurs benchmarkent 5 architectures de deep learning (Transolver meilleur) et proposent un pipeline de conception inverse générative utilisant des modèles de diffusion conditionnels, validé par CFD avec R² > 0,99.

Benchmarks Papers Génération de code

SIG

HYP

arXiv cs.CL·19 mai

GIM: Evaluating models via tasks that integrate multiple cognitive domains

GIM est un benchmark de 820 problèmes originaux évaluant les LLM via l'intégration de multiples domaines cognitifs (satisfaction de contraintes, suivi d'état, vigilance épistémique) plutôt que la mémorisation ou le raisonnement abstrait pur. Calibrage IRT sur >200k paires prompt-réponse, 28 modèles, étude extensive du trade-off compute vs capacité sur 11 modèles et 35 configurations.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

LEGO: An LLM Skill-Based Front-End Design Generation Platform

LEGO est une plateforme modulaire pour la génération de designs front-end numériques utilisant des LLM. Elle décompose le flux en 6 étapes et extrait 42 compétences de circuit réutilisables. Sur 41 problèmes VerilogEval v2 où GPT-5.2-codex échoue, LEGO atteint 80,5% Pass@1 vs 0% baseline, surpassant hierarchy-verilog (+14,6%) et VerilogCoder (+2,5%).

Génération de code Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Can LLM Agents Be CFOs? Benchmarking Long-Horizon Resource Allocation in an Uncertain Enterprise Environment

EnterpriseArena, un simulateur CFO de 132 mois, évalue la capacité des agents LLM à allouer des ressources sur long terme dans l'incertitude. Tests sur 23 modèles et 4 frameworks : seulement 15,4% des essais survivent l'horizon complet. Les modèles plus grands ne surpassent pas fiablement les petits. Révèle un écart critique dans la gestion d'engagements contraignants sous observabilité partielle.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Prompts Don't Protect: Architectural Enforcement via MCP Proxy for LLM Tool Access Control

Les LLM utilisés comme agents autonomes sélectionnent des outils non autorisés même avec instructions explicites. Une étude sur Qwen 2.5 7B, Llama 3.1 8B et Claude Haiku 3.5 montre qu'un proxy MCP avec contrôle d'accès basé attributs (ABAC) réduit les invocations non autorisées à 0%, contre 11-18% pour les restrictions par prompt. L'application architecturale est nécessaire, pas le prompt engineering.

Agents IA MCP Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?

TeleCom-Bench est un benchmark de 22 678 échantillons évaluant 8 LLMs sur des tâches télécom réelles (reconnaissance d'intention, extraction d'entités, analyse de cause racine, génération de solutions). Les modèles atteignent 90% en tâches linguistiques mais s'effondrent à 30% en exécution procédurale, révélant un « Execution Wall » : les LLMs diagnostiquent bien mais échouent comme ingénieurs terrain.

Benchmarks Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Stable Audio 3

Stable Audio 3 est une famille de modèles de diffusion latente (petit, moyen, grand) pour la génération et l'édition audio variable. Les modèles utilisent un nouvel autoencoder sémantique-acoustique et un post-entraînement adversarial pour générer de la musique et des sons en moins de 2s sur H200 ou quelques secondes sur MacBook Pro M4. Les poids petit et moyen sont publiés.

Open source

SIG

HYP

arXiv cs.AI·19 mai

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

Reinforcement learning Benchmarks Open source

SIG

HYP

arXiv cs.AI·19 mai

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

OSCAR quantifie les caches KV en INT2 pour les LLM long-context en estimant hors-ligne les structures de covariance alignées avec l'attention. Testé sur Qwen3 (4B–32B) et GLM-4.7 (358B), la méthode réduit l'écart de précision à 1.42–3.78 points vs BF16, réduit la mémoire de 8x et améliore le débit de 7x. Kernel INT2 compatible vLLM/SGLang.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

SaaSBench est le premier benchmark pour évaluer les agents IA dans l'ingénierie SaaS d'entreprise. Il contient 30 tâches complexes sur 6 domaines SaaS avec 8 langages, 6 bases de données et 13 frameworks. Les expériences révèlent que >95% des échecs surviennent avant la logique métier : les agents échouent à configurer et intégrer les systèmes multi-composants.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

ContraFix: Agentic Vulnerability Repair via Differential Runtime Evidence and Skill Reuse

ContraFix est un framework agentic pour la réparation automatique de vulnérabilités qui combine des preuves d'exécution différentielles et la réutilisation de compétences. Sur SEC-Bench (C/C++) et PatchEval (Go, Python, JavaScript), il atteint 84,0% et 73,8% de résolution avec GPT-4-mini, surpassant les baselines tout en coûtant moins d'un tiers.

Agents IA Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics

FML-Bench est un benchmark de 18 tâches ML sur 10 domaines évaluant 6 agents de recherche IA. Résultats clés : la complexité stratégique seule ne garantit pas la performance (greedy hill-climber rivalise avec tree-search) ; l'efficacité dépend de la structure d'opportunités d'amélioration ; un agent adaptatif détectant la stagnation surpasse les autres. 12 métriques comportementales au niveau processus.

Agents IA Benchmarks Raisonnement

SIG

HYP