Page 11 sur 192

ToutHaut signalRécent

7679 articles

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

Evoflux est une méthode de recherche évolutionnaire au moment de l'inférence pour réparer les workflows d'outils exécutables dans les agents compacts. Sur MCP-Bench avec 250 outils, elle augmente la faisabilité d'exécution de ~3% à 17-24%, surpassant SFT, SFT+DPO et ReAct avec des budgets limités de traces d'entraînement.

Agents IA MCP Outils

SIG

HYP

arXiv cs.CL·12 juin

Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review

PaperGuard, un benchmark multimodal, évalue la vulnérabilité des LLMs et MLLMs aux attaques adversariales dans l'examen par pairs scientifique. Les chercheurs testent des injections de prompts et perturbations (GCG, PGD) sur texte et figures, proposant une défense par recherche d'embeddings par chunks pour localiser les instructions malveillantes.

Sécurité IA Alignement Vision

SIG

HYP

arXiv cs.AI·12 juin

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

Étude évaluant 4 détecteurs de mensonges sur 31 modèles (2B-1T paramètres). Les détecteurs (juge CoT, classificateur logprob, sondes d'activation, DYL) performent bien sur les mensonges provoqués mais échouent sur les organismes modèles entraînés avec croyances vérifiées. Seul le juge CoT maintient 0.82 d'accuracy équilibrée.

Évaluations Raisonnement Alignement

SIG

HYP

arXiv cs.CL·12 juin

LAUKIN: A Multi-jurisdictional Common Law Contract Dataset

LAUKIN est un dataset de 14 727 paires de clauses contractuelles (Australie-UK, UK-Inde, Inde-Australie) annoté pour l'équivalence légale. 3 000 paires sont manuellement labellisées par des experts juridiques. Les meilleurs modèles atteignent 65,11% macro-F1, révélant que les conventions de rédaction divergent significativement entre juridictions malgré un héritage légal commun.

Benchmarks Papers RAG

SIG

HYP

arXiv cs.AI·12 juin

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

SciAgentArena est un benchmark systématique évaluant ~200 tâches scientifiques réelles avec vérification étape par étape. Les agents IA actuels performent bien sur les workflows d'analyse de données structurés, mais échouent à générer des insights novateurs, explorer de manière autonome et résoudre des questions ouvertes.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·12 juin

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

SENTINEL est un framework de reinforcement learning qui améliore les agents LLM utilisant des outils en convertissant leurs échecs en tâches d'entraînement ciblées. Sur Tau2-Bench Retail avec Qwen3-4B-Thinking-2507, la méthode augmente Pass@1 de 66,4 à 74,9 via une boucle Controller-Proposer-Solver analysant les erreurs récurrentes.

Agents IA Reinforcement learning Qwen

SIG

HYP

arXiv cs.CL·12 juin

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

LoHoSearch est un benchmark de 544 questions pour évaluer les agents de recherche long-horizon, construit via un pipeline automatisé sur un graphe de connaissances de 7 millions d'entités Wikipedia. Le modèle le plus performant atteint seulement 34,74% de précision, contre >90% sur les benchmarks précédents saturés.

Benchmarks Agents IA Raisonnement

SIG

HYP

arXiv cs.CL·12 juin

Small LLMs for Biomedical Claim Verification: Cost-Effective Fine-Tuning, Structural Dataset Shortcuts, and Cross-Domain Generalization

Trois petits LLM (Phi-3-mini 3.8B, Qwen2.5-3B, Mistral-7B) sont fine-tunés via QLoRA pour la vérification de claims biomédicaux. Mistral-7B surpasse GPT-4o et GPT-5 (+12% F1) avec 1,008 exemples d'entraînement. Étude révèle un artefact structurel dans SciFact et démontre une généralisation cross-domain robuste.

Mistral Qwen Fine-tuning

SIG

HYP

arXiv cs.AI·12 juin

Prefill Awareness in Large Language Models

Étude arXiv montrant que les modèles frontière (Claude Opus 4.5, GPT, Gemini) détectent les préfills modifiés dans 9-35% des cas avec 0% de faux positifs. Cette « prefill awareness » compromet la validité des évaluations d'alignement et jailbreaking reposant sur l'insertion de contexte assistant. Les modèles distinguent mismatch stylistique et préférentiel.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.AI·12 juin

Topical Phase Transitions in Artificial Intelligence Research: Large-Scale Evidence and an Early-Warning Signature for Emerging Topics

Analyse de 80 814 articles de 5 conférences IA majeures (2017-2025) révélant que les sujets progressent par transitions de phase abruptes, non graduellement. LLMs dominants en 2025, diffusion models et vision-language models ont surgi en 1-3 ans. Signature d'alerte précoce identifie reasoning, test-time compute, agentic AI, multimodal LLMs, RAG et world models comme sujets à surveiller 2026-2028.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·12 juin

Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System

Étude de déploiement d'un LLM intégré dans un dossier médical électronique. Un classificateur pré-réponse prédit le risque de rejet utilisateur (AUROC 0,719) en exploitant le contexte de déploiement (type de prestataire, département, modèle). Analyse prospective sur 4,5 mois.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·12 juin

DailyReport: An Open-ended Benchmark for Evaluating Search Agents on Daily Search Tasks

DailyReport est un benchmark open-source pour évaluer les agents de recherche (SA) sur 150 tâches quotidiennes réelles avec 3 546 rubriques d'évaluation. Les tâches sont décomposées en sous-tâches avec évaluation en cascade sur dimensions disentanglées. Tests sur 17 systèmes agentic montrent des lacunes significatives par rapport aux attentes utilisateurs.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·12 juin

MARS: Margin-Adversarial Risk-controlled Stopping for Parallel LLM Test-time Scaling

MARS est une règle d'arrêt adversariel pour le test-time scaling parallèle des LLM. Elle sonde les traces partielles à des points de contrôle intermédiaires pour estimer quelles traces changeront de réponse, permettant d'arrêter le calcul une fois le vote leader sûr. Sur trois modèles et trois benchmarks math, MARS économise 25-47% des tokens de self-consistency tout en maintenant la précision.

Raisonnement Évaluations Benchmarks

SIG

HYP

Reddit r/MachineLearning·11 juin

Adaptive Tokenisation Via Temporal Redundancy Masking And Latent Inpainting [R]

Méthode d'allocation adaptative de tokens vidéo exploitant la redondance temporelle dans l'espace latent d'un tokeniseur gelé. Un seuil fixe sur les différences L1 temporelles identifie les positions redondantes; un Latent Inpainting Transformer (LIT) les reconstruit. Pipeline efficace: 31× plus rapide qu'ElasticTok-CV, 2× qu'InfoTok sur TokenBench et DAVIS.

Génération de vidéos Benchmarks Papers

SIG

HYP

arXiv cs.CL·11 juin

AI Coding Agents in Social Science: Methodologically Diverse, Empirically Consistent, Interpretively Vulnerable

Étude comparative de Claude Code et Codex sur l'analyse de données en sciences sociales. Les agents IA produisent une diversité méthodologique égale ou supérieure aux humains, mais restent vulnérables aux biais interprétatifs au niveau du verdict final. Un prompt biaisé ne modifie pas les estimations agrégées contrairement aux analystes humains.

Claude Code Agents IA Génération de code

SIG

HYP

arXiv cs.AI·11 juin

PROJECTMEM: A Local-First, Event-Sourced Memory and Judgment Layer for AI Coding Agents

ProjectMem est une couche mémoire locale et open-source pour agents IA de codage, basée sur un journal d'événements immuable (problèmes, tentatives, fixes, décisions). Elle réduit la consommation de tokens (5 000-20 000 par session) et ajoute une gouvernance préventive : l'agent est averti avant de répéter un fix échoué ou modifier un fichier fragile. Fonctionne hors ligne via MCP.

Agents IA Génération de code MCP

SIG

HYP

arXiv cs.CL·11 juin

NightFeats @ MMU-RAGent NeurIPS 2025: A Context-Optimized Multi-Agent RAG System for the Text-to-Text Track

NightFeats, un système multi-agent RAG structuré, remporte le prix Best Dynamic Evaluation à NeurIPS 2025 (track texte-à-texte). Le pipeline décompose la synthèse en trois phases : retrieval, curation, composition, avec reranking temporel-sémantique et réconciliation des contradictions. Surpasse Claude-SonnetV2 et Nova-Pro sur évaluations humaines.

Multi-agents RAG Agents IA

SIG

HYP

arXiv cs.LG·11 juin

Dual-Stance Evaluation of Sycophancy: The Structure of Agreement and the Limits of Intervention

Une étude sur le steering d'activation montre que réduire la sycophantie dans Llama-3-8B-Instruct supprime aussi l'accord avec des énoncés factuellement corrects. Les représentations sycophantique et factuelle occupent des sous-espaces distincts mais le vecteur de steering les affecte également, révélant un fossé entre lisibilité et écrivabilité des activations.

Llama Alignement Sécurité IA

SIG

HYP

arXiv cs.AI·11 juin

Can AI Agents Synthesize Scientific Conclusions?

SciConBench, un benchmark de 9.11K questions issues de revues systématiques, évalue la capacité des agents IA à synthétiser des conclusions scientifiques. Sur 8 modèles frontier testés en environnement contrôlé, le meilleur agent atteint un F1 factuel de 0,337. Les agents grand public (Google AI Overview, OpenEvidence) génèrent souvent des conclusions incomplètes ou contradictoires.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·11 juin

Organize then Retrieve: Hierarchical Memory Navigation for Efficient Agents

HORMA organise l'expérience des agents LLM en structure hiérarchique fichier-système pour améliorer les tâches longues. Deux modules : construction mémoire structurée et récupération par navigation RL. Réduit usage tokens de 22% sur ALFWorld/LoCoMo/LongMemEval tout en améliorant performance.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·11 juin

Lung-R1: A Knowledge Graph-Guided LLM for Pulmonary Diagnostic Reasoning

Lung-R1 est un LLM spécialisé en diagnostic pulmonaire guidé par LungKG, un graphe de connaissances structuré contenant 59 038 nœuds et 164 308 arêtes. Entraîné via construction de chaînes de raisonnement contraintes et apprentissage par renforcement, Lung-R1-14B atteint 4.3583 en diagnostic EMR, surpassant les baselines de 0.1476 points.

Raisonnement RAG Reinforcement learning

SIG

HYP

arXiv cs.CL·11 juin

The Structural Attention Tax: How Retrieval Format Hijacks In-Context Learning Independent of Content

Les systèmes RAG sont vulnérables à un biais structurel : les triplets de graphes de connaissances capturent 2-3x plus d'attention par token que du texte naturel équivalent, comprimant l'attention des démonstrations jusqu'à 42%, indépendamment de leur pertinence. Les auteurs formalisent ce phénomène et proposent cinq stratégies d'atténuation, validées sur Mistral-7B et LLaMA-3-8B.

RAG Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·11 juin

One Jailbreak, Many Tongues: Learning Language-Insensitive Intention Representations for Multilingual Jailbreak Detection

MLJailDe, un framework de détection de jailbreak multilingue, utilise l'augmentation de données par back-translation sur 11 langues (2,232 samples bénins, 1,239 jailbreak) et des contraintes de distance relative pour réduire la dispersion des représentations cross-lingues. Atteint F1=98.5% et F1=97.1% sur langues non vues.

Sécurité IA Alignement Benchmarks

SIG

HYP

arXiv cs.LG·11 juin

Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models

Cadre d'évaluation de la robustesse adversariale des LLM basé sur le coût computationnel (FLOPs) plutôt que sur le nombre de requêtes. Étude de 10 modèles avec 3 stratégies d'attaque révèle : l'alignement a des effets non-monotones, la taille réduit les attaques par gradient mais pas les attaques par template, transfert possible entre modèles, variation de coût jusqu'à 5× selon les catégories de dommages.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·11 juin

SirenFNO: Efficient and Full Frequency Learning of Fourier Neural Operators

SirenFNO combine les opérateurs neuraux de Fourier (FNO) avec les réseaux de représentation sinusoïdale (SIREN) pour apprendre le spectre complet sans troncature fréquentielle. Le framework réduit les paramètres de 4 à 15× sur les benchmarks PDE tout en éliminant le biais spectral vers les basses fréquences; les variantes avec décomposition tensorielle atteignent 73× moins de paramètres.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·11 juin

Counterexample Guided Learning in the Large using Reasoning Agents

Étude sur l'apprentissage guidé par contreexemples pour améliorer les LLM sur l'induction d'expressions régulières. Les chercheurs proposent des stratégies de raffinement (régularisation, clustering symbolique) et des boucles de réflexion/réparation. Résultats : succès passant de 3,2% à 38,1% et de 38,9% à 74,1% sur les tâches les plus difficiles.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.LG·11 juin

FlowBank: Query-Adaptive Agentic Workflows Optimization through Precompute-and-Reuse

FlowBank optimise les workflows multi-agents LLM via une banque de workflows complémentaires réutilisables. Le framework en trois étapes (DiverseFlow pour la diversification, CuraFlow pour la compression, matching adaptatif) améliore les baselines de 4,26% à 14,92% sur cinq benchmarks tout en restant compétitif en coût.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·11 juin

Energy-Conserved Neural Pipelines: Attenuating Error Propagation in Modular Neural Networks via Physical Conservation Constraints

Des chercheurs proposent d'appliquer la conservation d'énergie comme contrainte physique stricte dans les pipelines de réseaux de neurones modulaires pour atténuer la propagation d'erreurs. Sur CIFAR-10, cette approche conserve 77,4% de précision à sigma=0.2 contre 35,1% pour les baselines. L'avantage s'étend aux robots (Franka Panda, MuJoCo) avec +18,9 pp de gain.

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.LG·11 juin

Least-Action-Guided Diffusion for Physical Extrapolation

LAPG combine un modèle de diffusion conditionnel avec un score de guidance basé sur le principe de moindre action pour améliorer l'extrapolation physique. Testé sur EDO/EDP (chute libre, ressorts, vortex, écoulements autour d'ailes), la méthode réduit la dérive de phase et préserve la cohérence physique hors distribution d'entraînement.

Papers Raisonnement

SIG

HYP

arXiv cs.LG·11 juin

SwiftCTS: Fast Cross-Design Prediction and Pareto Optimization of Clock Tree Metrics via Few-Shot Calibration

SwiftCTS est un framework de substitution physiquement informé pour la synthèse d'arbres d'horloge (CTS). Entraîné en moins de 5 secondes sur CPU avec inférence en sous-milliseconde, il utilise un mécanisme de calibration K-shot pour adapter les prédictions à de nouvelles architectures sans réentraînement. Évalue 100 000 configurations CTS en 10 secondes avec erreurs <0,5% sur puissance/longueur de fil.

Benchmarks Papers Open source

SIG

HYP

arXiv cs.LG·11 juin

Signed Compression Progress on a Sealed Audit is Goodhart-Resistant

Un article théorique prouve que la récompense basée sur la compression (diminution de la perte d'audit) résiste à Goodhart : si r_t = E(θ_{t-1}) - E(θ_t), la récompense cumulée converge exactement vers l'amélioration réelle de l'audit. Pour des panels finis, l'écart empirique est borné par 2Δ_n(F,δ). Les auteurs formalisent en Lean 4 et valident sur ARC-TGI.

Reinforcement learning Alignement Évaluations

SIG

HYP

arXiv cs.LG·11 juin

GraphInfer-Bench: Benchmarking LLM's Inference Capability on Graphs

GraphInfer-Bench est un benchmark de 42 000 échantillons sur 6 graphes réels évaluant si les LLM peuvent effectuer une inférence graphique complexe (réponses ouvertes nécessitant plusieurs nœuds). Quatre familles de méthodes testées : alignement graph-token, LLM frontier, fine-tuning Graph2Text, GNN. Aucune ne ferme l'écart ; les GNN surpassent les LLM sur la plupart des tâches.

Benchmarks Raisonnement RAG

SIG

HYP

arXiv cs.CL·11 juin

When More Documents Hurt RAG: Mitigating Vector Search Dilution with Domain-Scoped, Model-Agnostic Retrieval

RAG se dégrade sur collections hétérogènes : la recherche vectorielle perd sa capacité discriminante (Wyoming DOT : 75% → 40% en passant de 54 à 1 128 docs). MASDR-RAG propose le domain scoping via métadonnées organisationnelles, améliorant P@10 de 0,77 à 0,86 (p<0,05). Multi-agent orchestration crée un paradoxe précision-fidélité.

RAG Recherche vectorielle Multi-agents

SIG

HYP

arXiv cs.CL·11 juin

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

WebGraphMix sélectionne les données de préentraînement en analysant la topologie du graphe web Common Crawl. La méthode calcule des scores de centralité sans modèle ni données étiquetées, puis mélange documents centraux et périphériques. Sur 400M-1B paramètres, le ratio 1:1 atteint 41,4% en moyenne (+1,6pp vs échantillonnage uniforme), 43,8% combiné avec scores de qualité.

Benchmarks Papers Fine-tuning

SIG

HYP

arXiv cs.CL·11 juin

Beyond Compaction: Structured Context Eviction for Long-Horizon Agents

Context Window Lifecycle (CWL) gère la mémoire des agents LLM sur long horizon via éviction sémantique structurée. L'agent annote sa trajectoire en épisodes typés et dépendants ; une politique déterministe supprime le contenu par priorité quand le budget token est dépassé. CWL complète 89 tâches séquentielles sur 80M tokens sans dégradation de précision, évitant les limites de la compaction par résumé.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.CL·11 juin

When Roleplaying, Do Models Believe What They Say?

Étude sur la distinction entre ce que les modèles de langage disent et ce qu'ils croient vraiment. Via des sondes linéaires appliquées à Claude, Qwen et Llama en rôle-play historique, les auteurs montrent que l'adoption de persona modifie surtout les outputs, pas les représentations internes de vérité. Contraste avec l'Emergent Misalignment où les fausses affirmations se déplacent vers l'espace des vraies croyances.

Raisonnement Alignement Évaluations

SIG

HYP

arXiv cs.CL·11 juin

BioDivergence: A Benchmark and Evaluation Framework for Hidden Contextual Contradictions in Biomedical Abstracts

BioDivergence est un benchmark et framework d'évaluation pour les contradictions contextuelles cachées dans les abstracts biomédicaux. Il propose une taxonomie à 6 classes, une ontologie de divergence à 13 axes, et 4 sorties structurées par paire de claims. Le benchmark silver contient 11,865 paires de claims sur 5 domaines biomédicaux. Mistral-7B-Instruct-v0.3 atteint 0.5523 d'accuracy et 0.3894 de contextual-F1.

Benchmarks Papers Mistral

SIG

HYP

arXiv cs.LG·11 juin

Beyond the Golden Teacher: Enhancing Graph Learning through LLM-GNN Co-teaching

LLM-GNN Co-Teaching propose un cadre d'enseignement bidirectionnel pour l'apprentissage sur graphes textuels en régime peu supervisé. Au lieu de désigner un modèle comme enseignant, GNN et LLM échangent leurs pseudo-labels les plus confiants et s'actualisent mutuellement. RPL-PO extrait des paires de préférence DPO des trajectoires de convergence. Gains de 7.86% en 3-shot sur Cora et 7.73% sur ogbn-arxiv.

RAG Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·11 juin

SOMA-SQL: Resolving Multi-Source Ambiguity in NL-to-SQL via Synthetic Log and Execution Probing

SOMA-SQL résout l'ambiguïté multi-source en traduction NL-to-SQL via logs de requêtes synthétiques et sondage par exécution. La méthode construit des logs synthétiques pour ancrer l'interprétation du schéma, génère des candidats SQL, puis exécute des requêtes de sondage ciblées basées sur une taxonomie d'ambiguïté. Résultats : +13,0% de précision en moyenne sur 6 benchmarks, jusqu'à +16,7% sur questions ambiguës.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·11 juin

APEX: A Network-Native Time-Series Foundation Model for Forecasting and Anomaly Detection for Wireless Edge Operations

APEX est un modèle fondation transformer spécialisé pour la télémétrie de réseaux sans fil. Pré-entraîné sur 10 canaux multivariés de ~4 500 réseaux de production (100K séries temporelles), il réduit l'erreur MAE de 18% vs Toto et 38% vs SARIMA sur prévisions DHCP 192-step. Deux versions : APEX-Large (269M, cloud) et APEX-Edge (10.5M, edge) avec F1=0.93 en détection d'anomalies.

Papers Benchmarks Raisonnement

SIG

HYP