Page 67 sur 192

ToutHaut signalRécent

7679 articles

Agent Skill Evaluation and Evolution: Frameworks and Benchmarks

Étude systématique des frameworks d'évaluation et d'évolution des compétences d'agents IA. Catégorise l'évolution en quatre paradigmes : feedback d'exécution, distillation de trajectoires, compression et apprentissage par renforcement. Analyse six catégories de benchmarks et identifie les lacunes structurelles pour construire des écosystèmes de compétences généralisables et sûrs.

Agents IA Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.LG·11 juin

Restless bandits with imperfect binary feedback: PCL-indexability analysis and computation

Étude des bandits agités avec états latents binaires et rétroaction imparfaite, motivée par l'accès opportuniste au spectre. Développement d'un cadre analytique basé sur les lois de conservation partielles (PCL) pour établir l'indexabilité et évaluer l'indice de Whittle. Vérification complète en plusieurs régimes seuil et schémas numériques efficaces pour les régimes restants.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·11 juin

SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior

SkillJuror évalue comment l'organisation des Skills (procédures augmentant les agents LLM) affecte le comportement à l'exécution. Sur 82 tâches, la Progressive Disclosure (ressources hiérarchisées) augmente les ressources touchées par trajectoire de 1,18 à 3,85 et les événements d'uptake de 1,33 à 3,92, gagnant +4,1% de succès. Le bénéfice dépend de la tâche.

Agents IA Prompt engineering Évaluations

SIG

HYP

arXiv cs.AI·11 juin

Forecasting Future Behavior as a Learning Task

Nouvelle approche pour prédire le comportement des grands modèles de raisonnement (LRM) sans passer par des explications. Les auteurs entraînent des Behavior Forecasters sur des trajectoires de raisonnement pour prédire la stabilité des réponses et l'impact des modifications d'entrée. Évaluation sur trois datasets : les forecasters surpassent GPT-5.4 et Claude Opus-4.6 avec coût d'inférence réduit.

Raisonnement Évaluations Claude

SIG

HYP

arXiv cs.AI·11 juin

Human-Enhanced Loop Modeling (HELM): Agent-Based Finite Element Modeling of Concrete Bridge Barriers

HELM est un framework agent-humain pour automatiser la modélisation par éléments finis (FE) de barrières de pont en béton armé. Testé sur 20 cas sous conditions de charge MASH TL-4/TL-5, le système améliore le taux de succès autonome de 20% à 75% en décomposant le processus en points de contrôle visuels vérifiables. Code et prompts open-sourcés.

Agents IA Raisonnement Outils

SIG

HYP

arXiv cs.CL·11 juin

Every Act Has Its Price: Compressed Moral Composition in Frontier LLMs

Moral Trolley Arena, un benchmark ELO en deux étapes, mesure comment les LLMs composent des signaux moraux. Sur 10 modèles frontière, les jugements composites sont prédits par la force des actes composants mais avec une relation compressée non-additive. Les résultats montrent que les audits moraux doivent mesurer les règles de composition, pas seulement les classements d'actes isolés.

Benchmarks Alignement Sécurité IA

SIG

HYP

arXiv cs.AI·11 juin

Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents

ACTION-RATING intègre la demande de clarification dans l'espace d'action des agents hiérarchiques, en concurrence directe avec la navigation. Sur classification de tarifs (30k nœuds, 9 LLMs), deux modes émergent : obligatoire (pas de branche viable) et opportuniste (incertitude résiduelle). L'efficacité de recherche d'information passe de 50% à 74%.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·11 juin

TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation

TouchThinker est un framework tactile-langage pour le raisonnement commonsense basé sur le toucher. Les auteurs construisent TouchThinker-1M, un dataset de 1 million d'exemples couvrant 415 objets, 8 scénarios et 7 types de capteurs, et introduisent un mécanisme de modélisation action-aware pour améliorer l'efficacité des représentations tactiles.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·11 juin

EverydayGPT: Confidence-Gated Routing for Efficient and Safe Hybrid GPT-RAG Conversational QA

EverydayGPT introduit un mécanisme de routage par confiance (CGR) pour les systèmes RAG conversationnels. Un GPT de 205M paramètres entraîné sur 10B tokens évite l'appel au chemin GPT coûteux (~5.9s) pour 85% des requêtes en les résolvant via extraction RAG rapide (~45ms), réduisant la latence de 120x. F1=0.226 sur benchmark 500 questions, avec réduction latence moyenne 6.3x.

RAG Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·11 juin

Mind the Perspective: Let's Reason Recursively for Theory of Mind

RecToM, un framework d'inférence pour le raisonnement Theory of Mind, modélise les croyances imbriquées via construction récursive de perspectives. Testé sur Hi-ToM, Big-ToM et FanToM avec GPT-5.4 et Qwen3.5, il atteint 100% de précision et surpasse les approches existantes.

Raisonnement Benchmarks GPT

SIG

HYP

arXiv cs.AI·11 juin

StatefulDiscovery: Evidence-Calibrated Claim Formation in Open-Ended Scientific Discovery

StatefulDiscovery est un framework pour la découverte scientifique ouverte qui externalise l'état d'investigation pour coordonner la sélection de frontière, l'acquisition de preuves et l'adjudication de réclamations. Évalué sur 40 tâches réelles, il produit plus de réclamations bien fondées et de haute valeur que les baselines, grâce aux hypothèses structurées et au contrôle de frontière.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.CL·11 juin

PoQ-Judge: A Multi-Architecture Evaluation Framework for Cost-Aware Proof-of-Quality in Decentralized LLM Inference

PoQ-Judge est un framework d'évaluation sans référence pour les réseaux d'inférence LLM décentralisés. Trois architectures (TextCNN, MiniLM, DeBERTa) sont entraînées sur UltraFeedback + données GPT-labellisées. Le meilleur modèle atteint 0.747 corrélation Pearson avec la vérité-terrain, surpassant les évaluateurs basés sur références. L'évaluation en cascade réduit les coûts de 72.7% avec perte de qualité modeste.

Évaluations Raisonnement Infrastructure

SIG

HYP

arXiv cs.AI·11 juin

MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation

MA-DLE propose une méthode d'augmentation mémoire pour estimer automatiquement les niveaux de dépression à partir de la parole. Le système utilise un GRU enrichi par une banque mémoire sélective (features temporelles historiques + features dynamiques basées sur la variabilité) et un module Hierarchical Attention Fusion. Évalué sur DAIC-WOZ et E-DAIC, il atteint l'état de l'art.

Voix Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·11 juin

Range-Aware Bayesian Optimization for Discovering Diverse Designs within Target Property Windows

Nouvelle méthode de Bayesian Optimization (BO) pour découvrir plusieurs solutions distinctes satisfaisant des plages de propriétés cibles plutôt qu'un optimum unique. Testée sur synthèse polymère et découverte d'oligomères avec calculs chimiques quantiques, elle récupère des ensembles plus larges et diversifiés que les baselines BO standards.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·11 juin

Calibration Drift Under Reasoning: How Chain-of-Thought Budgets Induce Overconfidence in Large Language Models

Les modèles de langage deviennent surconfiants quand on augmente le budget de raisonnement au-delà d'un seuil critique. Ce phénomène, appelé Calibration Drift Under Reasoning (CDUR), est étudié sur Llama-3.1-8B et Llama-3.3-70B. Les auteurs proposent CABStop, une règle d'arrêt calibrée pour arrêter le raisonnement quand la confiance diverge de l'exactitude réelle.

Llama Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·11 juin

GLACIER: A Multimodal Student-Teacher Foundation Model for Molecular Property Prediction

GLACIER est un modèle étudiant-professeur multimodal pour la prédiction de propriétés moléculaires. Il intègre graphes moléculaires, chaînes SMILES et descripteurs physicochimiques via trois encodeurs préentraînés sur 100 000 molécules, fusionnés par géométrie de Finsler et distillation de connaissances de MiniMol et MolFormer.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·11 juin

Embodied-BenchClaw: An Autonomous Multi-Agent System for Embodied Spatial Intelligence Benchmark Construction

Embodied-BenchClaw est un système multi-agent autonome pour construire des benchmarks d'intelligence spatiale incarnée. Via un pipeline à 5 étapes (intent, collecte, structuration, synthèse, reporting), coordonné par 3 agents, il génère automatiquement des benchmarks réutilisables et maintenables couvrant raisonnement spatial intérieur/extérieur, manipulation robotique, navigation quadrupède et vision aérienne.

Multi-agents Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·11 juin

Toward Trustworthy AI: Multi-Target Adversarial Attacks and Robust Defenses for Continuous Data Summarization

Étude des attaques adversariales contre la summarization de données continues via optimisation DR-submodulaire. Les auteurs formulent des attaques multi-cibles comme problème min-max et proposent des défenses robustes via max-min régularisé. Algorithmes d'approximation avec garanties théoriques validés sur benchmarks réels.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.CL·11 juin

Sch\"utzen: Evaluating LLM Safety in Bulgarian and German Contexts

Schützen est un dataset d'évaluation de sécurité LLM en allemand et bulgare, couvrant une langue à faibles ressources et une à fortes ressources. Les expériences révèlent des différences significatives de comportement de sécurité entre langues, soulignant le besoin de ressources d'évaluation régionales adaptées.

Sécurité IA Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·11 juin

Small Experiments, Cheaper Decisions: A Case Study in Staged Promotion for Micro-Pretraining

Étude d'un protocole de promotion par étapes pour le micro-préentraînement sur deux architectures (A100, L40S). À partir de 12 configurations, les auteurs utilisent des budgets croissants (2, 5, 10, 60 min, 12h) avec règles de promotion gelées. Le coût total : 169,2 GPU-heures vs 432 si tous les candidats à 10 min avaient continué.

Fine-tuning Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·11 juin

Scenario-based Probing and Steering Cultural Values in Large Language Models--Extended Version

Étude arXiv sur le sondage des valeurs culturelles dans les LLM via des dilemmes comportementaux basés sur le World Values Survey. Les auteurs appliquent steering d'activation sur trois modèles open-source pour mesurer et modifier les préférences implicites selon deux axes Inglehart-Welzel, révélant un enchevêtrement latent où les interventions sur une dimension culturelle affectent une autre.

Papers Alignement Évaluations

SIG

HYP

arXiv cs.CL·11 juin

APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

APEX optimise automatiquement les prompts en sélectionnant dynamiquement les données d'entraînement. Le framework stratifie le dataset en tiers (Easy, Hard, Mixed) et priorise la frontière Mixed pour générer des mutations informatives. Sur 5 000 appels d'évaluation, APEX améliore les performances de 11,2% sur Gemini 2.5 Flash et 6,8% sur Gemma 3 27B.

Prompt engineering Benchmarks Gemini

SIG

HYP

arXiv cs.CL·11 juin

Detecting AI-Generated Content on Social Media with Multi-modal Language Models

Détection de contenu généré par IA sur les réseaux sociaux via un modèle vision-langage compact. Pipeline multi-modal entraîné sur données sociales diversifiées, déployé en production avec impact positif sur l'engagement utilisateur. Performances SOTA sur benchmarks publics.

Vision Sécurité IA Benchmarks

SIG

HYP

arXiv cs.LG·11 juin

Physics-informed generative AI for semiconductor manufacturing: Enforcing hard physical constraints in generative models by construction

Article de perspective sur l'intégration de contraintes physiques dans les modèles génératifs pour la fabrication de semiconducteurs. Argue que les modèles doivent être physics-informed par construction plutôt que corrigés post-hoc. Survole diffusion physics-informed, modèles variationnels PDE-contraints, opérateurs neuronaux, et réseaux respectant les lois de conservation.

Papers Raisonnement

SIG

HYP

arXiv cs.CL·11 juin

Measuring language complexity from hierarchical reuse of recurring patterns

Nouvel indice de complexité linguistique (ladderpath index) basé sur la théorie de l'information algorithmique. Mesure les étapes minimales pour reconstruire une séquence par réutilisation hiérarchique de sous-structures répétées. Appliqué à 21 corpus parallèles : complexité approximativement invariante entre langues, soutenant l'hypothèse d'équi-complexité.

Papers Benchmarks

SIG

HYP

arXiv cs.AI·11 juin

PoQ-Judge: A Multi-Architecture Evaluation Framework for Cost-Aware Proof-of-Quality in Decentralized LLM Inference

PoQ-Judge est un framework d'évaluation légère et sans référence pour les réseaux d'inférence LLM décentralisés. Trois architectures (TextCNN, MiniLM cross-encoder, DeBERTa) sont comparées sur le tradeoff qualité-coût. Le meilleur modèle atteint 0.747 corrélation Pearson avec la vérité terrain, surpassant les évaluateurs basés sur référence. L'évaluation en cascade réduit les coûts de 72.7% avec perte minimale.

Évaluations Raisonnement Infrastructure

SIG

HYP

arXiv cs.LG·11 juin

Mechanical Field Networks: Structured Neural Dynamics for Multivariate Systems

MF-Net est un modèle dynamique récurrent qui représente les systèmes multivariés via un état de champ partagé, mis à jour par une loi de relation apprise. Sur Lorenz-96 (40D), il atteint R²=0.798±0.018 en 8 pas et récupère la structure de couplage local avec précision parfaite (1.000±0.000). Le modèle combine prédiction et interprétabilité structurelle.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·11 juin

PermDoRA -- Understanding Adapter Interference in Language Models: Limits of Parameter-Space Geometry

PermDoRA teste l'hypothèse que l'interférence entre adaptateurs provient du chevauchement géométrique des paramètres. Sur LLaMA-3.1-8B et Mistral-7B, la fusion géométrique Riemannienne n'améliore pas la composition multi-domaine vs moyenne standard. L'orthogonalité des adaptateurs ne prédit pas la performance : l'interférence dépend plutôt des représentations non-linéaires partagées.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.LG·11 juin

LakeFM: Toward a Foundation Model for Aquatic Ecosystems Using Irregular Multivariate Multi-depth Time Series Data

LakeFM est un modèle fondationnel pré-entraîné sur des données écologiques à grande échelle (lacs simulés et observés) pour prévoir la dynamique des lacs et la qualité de l'eau. Il gère les séries temporelles irrégulières multi-variables et multi-profondeurs, généralise entre lacs hétérogènes, et surpasse les modèles existants avec des prédictions physiquement plausibles.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·11 juin

FreeBridge: Variational Schr\"odinger Bridges for Cellular Transition Dynamics

FreeBridge applique les ponts de Schrödinger variationnels à la modélisation des transitions cellulaires à partir d'images fixes. Le modèle infère les trajectoires stochastiques entre populations contrôle et traitées en contraignant le transport dans une géométrie cellulaire observée, validé sur BBBC021, RxRx1 et JUMP.

Papers Reinforcement learning

SIG

HYP

arXiv cs.AI·11 juin

A Lightweight Multi-Agent Framework for Automated Concrete Barrier Design

Framework multi-agent AutoGen pour la conception automatisée de barrières en béton armé. Atteint 98% de précision en design en boucle fermée génération-évaluation-optimisation. Un modèle 8B surpasse des modèles 631B non contraints, réduisant coûts computationnels tout en respectant normes AASHTO-LRFD.

Multi-agents Agents IA Llama

SIG

HYP

arXiv cs.LG·11 juin

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

VLM-Safe-RL intègre un modèle vision-langage gelé dans l'optimisation constrained-RL pour anticiper les collisions avant qu'elles ne surviennent. Sur Safety-Gymnasium FormulaOne L2, VLMPPOLag+Conf maintient le coût dans le budget (d_lim=25) tout en conservant un rendement substantiel (Jr≈40), surpassant PPOLag, CPO, CPPOPID et CPO-CLG. Généralisation partielle à MetaDrive (41%→26% de catastrophes).

Reinforcement learning Sécurité IA Vision

SIG

HYP

arXiv cs.AI·11 juin

MODF-SIR: A Multi-agent Omni-modal Distilled Framework for Social Intelligence Reasoning

MODF-SIR est un framework multi-agent basé sur un MLLM léger pour le raisonnement social. Il utilise la distillation de connaissances, l'adaptation au test (TTA) et LoRA pour affiner le modèle. Avec 30% des données IntentTrain, il atteint l'état de l'art sur plusieurs benchmarks. Code, démo et LoRA disponibles.

Multi-agents Vision Fine-tuning

SIG

HYP

arXiv cs.AI·11 juin

The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning

Les modèles de raisonnement large (LRM) échouent en raisonnement spatial. Au lieu de fine-tuning supervisé, les auteurs proposent un cadre RL auto-supervisé utilisant des vérificateurs de cohérence (transformations géométriques et sémantiques). Ils introduisent OT-GRPO, une variante de GRPO basée sur le transport optimal, atteignant la performance des modèles supervisés sans annotations.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·11 juin

A prior-free blind detection of information leakage from model predictions

Méthode de détection d'une fuite de données dans les modèles ML à partir des seules prédictions, sans accès au code d'entraînement. Framework décision-théorique identifie trois classes de fuites (mal-calibrées, calibrées larges, déterministes) avec détecteurs spécifiques. Validation sur UK Biobank détecte les fuites jusqu'à Δc* ≈ 0.007.

Évaluations Sécurité IA Papers

SIG

HYP

arXiv cs.AI·11 juin

AutoMine Solution for AV2 2026 Scenario Mining Challenge

AutoMine, une méthode de mining de scénarios basée sur LLM et VLM, extrait des scénarios critiques des logs de conduite autonome. Utilise l'augmentation de prompts et des fonctions atomiques robustes. Score HOTA-Temporal de 36.38 à la compétition Argoverse 2 CVPR 2026.

Llama Vision Génération de code

SIG

HYP

arXiv cs.LG·11 juin

Quantifying Subliminal Behavioral Transfer Ratios in Language Model Distillation

Étude quantifiant le transfert de comportements indésirables lors de la distillation de modèles de langage. Deux modèles (Llama-2-7B-Chat et Qwen2.5-7B-Instruct) sont manipulés à différentes intensités puis distillés sur données bénignes. Llama-2 montre un seuil abrupt (τ=0.25-0.32), Qwen2.5 un transfert continu jusqu'à τ=0.61, évalué sur 100 prompts JailbreakBench avec GPT-4.1.

Llama Qwen Fine-tuning

SIG

HYP

arXiv cs.LG·11 juin

Few-Shot Resampling for Scalable Statistically-Sound Data Mining

FewRS est une méthode de rééchantillonnage pour évaluer la significativité statistique des résultats d'exploration de données. Elle réduit le nombre de datasets rééchantillonnés nécessaires (de milliers à quelques-uns) tout en garantissant le contrôle des faux positifs. Testée sur l'extraction de motifs et l'analyse de réseaux, elle offre jusqu'à 100× d'accélération.

Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·11 juin

Kuramoto Attention: Synchronizing Self-Attention on the Torus

Kuramoto attention propose une couche d'auto-attention où chaque coordonnée cachée est un angle sur le tore. Les tokens sont notés par similarité cosinus gated, mis à jour via la moyenne circulaire pondérée (terme de couplage Kuramoto). Sur enwik8, la couche atteint 1.637±0.010 BPC à 1M paramètres vs 1.616±0.004 pour RoPE+SwiGLU, validant cette structure géométrique contrainte.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·11 juin

Mahalanobis-Guided Latent OOD Detection for Hybrid ES-DRL Control in Time-Varying Systems

Méthode de détection OOD en espace latent VAE utilisant la distance de Mahalanobis pour basculer entre contrôleur RL et extremum seeking dans systèmes temps-variant. Application au contrôle d'accélérateur de particules où les mouvements d'aimants créent des profils de faisceau non vus en entraînement.

Reinforcement learning Sécurité IA Évaluations

SIG

HYP