Page 19 sur 192

ToutHaut signalRécent

7679 articles

TCP-MCP: Landscape-Guided Co-Evolution of Prompts and Communication Topologies for Multi-Agent Systems

TCP-MCP co-évolue les prompts d'agents et les topologies de communication comme un génome unifié. Sur MMLU-Pro, MMLU et GSM8K avec DeepSeek-V3.2, le système atteint 82.66%, 89.96% et 96.61% d'accuracy tout en consommant 5.69× moins de tokens que les systèmes de débat.

Multi-agents Prompt engineering Benchmarks

SIG

HYP

arXiv cs.AI·28 mai

EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents

EgoBench est un benchmark interactif multimodal pour agents utilisant des outils, comprenant 1 045 tâches vidéo égocentrique couvrant quatre scénarios quotidiens. Huit modèles SOTA atteignent seulement 30,62% de précision au mieux, 19,43% en moyenne, révélant des goulots d'étranglement en perception visuelle et raisonnement multi-hop.

Agents IA Vision Benchmarks

SIG

HYP

arXiv cs.LG·28 mai

A Paired Testing Protocol for Batch-Conditioned Refusal Robustness in LLM Serving

Étude arXiv sur la robustesse du refus des LLM en fonction de la configuration de batch. Protocole de test appairé sur 15 modèles révèle 0,16% de changements de label de sécurité authentiques. vLLM avec BATCH_INVARIANT=1 élimine les instabilités détectées (22→0 flips). Recommandation : valider le refus dans l'environnement de serving réel.

Sécurité IA Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·28 mai

Fine-Tuning Dynamics of In-Context Factual Recall in Transformers

Étude théorique de la dynamique d'apprentissage en contexte (in-context learning) dans les transformers. Les auteurs formalisent la tâche IC-recall où le modèle doit inférer une relation cachée à partir d'exemples et récupérer des connaissances factuelles stockées dans ses paramètres. Preuve que le fine-tuning converge vers un motif d'attention spécifique avec un nombre d'échantillons polylogarithmique.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.LG·28 mai

Heterogeneous Parallelism for Multimodal Large Language Model Training

Papier arXiv proposant une approche de parallélisme hétérogène pour l'entraînement de modèles multimodaux. Permet aux encodeurs et LLM d'utiliser des layouts de sharding indépendants (TP/CP/PP/DP/EP) sur GPUs partagés ou disjoints. Améliore le throughput jusqu'à 49,3% en configuration colocalisée et 13% en non-colocalisée. Implémentation open-source en extension Megatron-LM.

Infrastructure Papers Benchmarks

SIG

HYP

arXiv cs.AI·28 mai

SkillGrad: Optimizing Agent Skills Like Gradient Descent

SkillGrad optimise les compétences d'agents LLM via une approche inspirée de la descente de gradient. Les exécutions de tâches fournissent des signaux de perte, des diagnostics automatiques génèrent des gradients textuels, et un agent avec momentum accumule les patterns récurrents. Évalué sur SpreadsheetBench et WikiTableQuestions, SkillGrad surpasse les baselines de 6,7 points en moyenne.

Agents IA Reinforcement learning Prompt engineering

SIG

HYP

arXiv cs.AI·28 mai

PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft

PEAM est un framework de mémoire d'agent incarné dans Minecraft qui internalise l'expérience en paramètres plutôt qu'en récupération à l'inférence. Il combine un LLM lent pour le raisonnement avec un module paramétrique rapide (Mixture-of-Experts LoRA) apprenant par clonage comportemental et objectif contrastif. Les échecs sont utilisés comme signaux d'entraînement pour apprendre les corrections.

Agents IA Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·28 mai

RAG-Coding: Enhancing LLM Medical Coding with Structured External Knowledge

RAG-Coding est une méthode multi-agents orchestrant 4 LLM pour le codage ICD-10-CM automatisé. Elle ancre les décisions dans des sources externes (tabular officiel, guidelines) et améliore la précision de 8-13% en micro-F1 sur MDACE. Les auteurs publient aussi MDACE-2025 avec annotations expertes selon les guidelines 2025.

RAG Agents IA Multi-agents

SIG

HYP

arXiv cs.CL·28 mai

BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking

BioELX est un système de liaison d'entités biomédicales multilingues en deux étapes sans données d'entraînement annotées. Il enrichit SapBERT avec des alias multilingues Wikidata et utilise un LLM pour la désambiguïsation contextuelle. Sur cinq benchmarks, il atteint +19.2 Recall@1 sur XL-BEL, avec gains majeurs pour langues peu dotées (turc +21.6, coréen +22.1, thaï +30.8).

Benchmarks Papers RAG

SIG

HYP

arXiv cs.CL·28 mai

Retrieval, Reward, and Training Protocols: What Matters in Training Search Agents?

Étude empirique contrôlée sur l'entraînement d'agents de recherche LLM. Les auteurs isolent trois dimensions : (1) un problème de couverture de données dans Wikipedia 2018 qui explique plus de gains que les différences algorithmiques, (2) les récompenses outcome-based surpassent les approches process-based, (3) analyse de la diversité des données et du budget de recherche. Code disponible.

Agents IA RAG Reinforcement learning

SIG

HYP

arXiv cs.CL·28 mai

MERIT: Matching Expertise via Rubric-Informed Training for Reviewer Assignment

MERIT est un framework en deux étapes pour l'assignation de relecteurs scientifiques à grande échelle. Un modèle de 4B paramètres entraîné par RL évalue l'adéquation entre soumissions et relecteurs via des rubriques d'expertise guidées par un juge LLM, puis distille ses prédictions dans un retriever embedding. Surpasse les LLMs génériques sur LR-Bench et CMU Gold dataset.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.CL·28 mai

DecomposeRL: Learning to Ask Useful, Informative, and Diverse Questions for Semi-Supervised, Traceable Claim Verification

DecomposeRL combine vérification de claims précise et traçabilité inspectable via RL (GRPO). Un modèle 7B entraîné sur 5K claims curatés atteint 86.3% in-domain et 69.8% out-of-domain, égalant des baselines 32B et GPT-4.1-mini. Fonctionne en semi-supervisé avec 10% de données étiquetées.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·28 mai

ReverseMath: Answer Inversion for Scalable and Verifiable Mathematical Problem Generation

ReverseMath génère automatiquement de nouveaux problèmes mathématiques en inversant réponse et inconnue : masquer une valeur numérique, traiter la réponse originale comme condition connue, réécrire le problème. Détecte la mémorisation en comparant performances sur paires original/inversé. Améliore le raisonnement mathématique via augmentation de données pour RL.

Benchmarks Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·28 mai

TRACES: Proactive Safety Auditing for Multi-Turn LLM Agents via Trajectory-State Modeling

TRACES est un auditeur de sécurité proactif pour agents LLM multi-tours qui détecte les dérives vers des comportements dangereux à partir des représentations cachées d'un LLM observateur. Entraîné avec supervision faible au niveau trajectoire, il produit des estimations denses de risque à chaque étape, améliorant la prédiction de sécurité et la discrimination des risques sur plusieurs benchmarks.

Agents IA Sécurité IA Raisonnement

SIG

HYP

arXiv cs.CL·28 mai

Disentangling Language Roles in Multilingual LLM Task Execution

MTM-Bench, un benchmark contrôlé pour l'exécution de tâches multilingues, évalue 20 LLMs sur 27 combinaisons de langues (instruction/contenu/réponse) en anglais, espagnol et chinois. Les résultats montrent que la dégradation dépend du rôle de la langue dans la structure de la tâche, la langue de réponse étant l'axe dominant de variation.

Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·28 mai

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec améliore le décodage spéculatif en adaptant dynamiquement le vocabulaire et les paramètres du modèle de brouillon en temps réel. Via indexation sémantique et apprentissage par curriculum, il maintient un taux d'acceptation élevé dans les domaines spécialisés (code, droit, médecine). Sur EAGLE-3 : 1.13x speedup vs FR-Spec avec 27% moins de mémoire.

Génération de code Raisonnement Infrastructure

SIG

HYP

arXiv cs.CL·28 mai

OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis

OralAgent est un agent IA spécialisé en dentisterie intégrant raisonnement multimodal, outils visuels (22 modèles) et RAG sur 368 manuels dentaires classiques (134.8M tokens). Évalué sur OralQA-ZH (798 questions) et benchmarks MMOral, il atteint SOTA pour l'analyse d'images dentaires en workflow clinique.

Agents IA Vision RAG

SIG

HYP

arXiv cs.AI·28 mai

When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models

Étude arXiv montrant que les modèles de langage alignés échouent à adapter leur comportement sécuritaire quand le contexte change (« brittle safety »). Test sur 12 modèles révèle un écart sécurité-bon sens de +17.4 pp. Les guardrails actuels ne détectent pas les inversions de conséquences ; un validateur conscient de l'état les capture tous.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.AI·28 mai

Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems

Étude arXiv sur la confidentialité dans les systèmes multi-agents. Une plateforme simule des milliers d'agents LLM interagissant sur un mois. Les violations de confidentialité passent de 19,95% (single-turn) à 45,30% (multi-turn). Les agents sont 8× plus susceptibles de divulguer des infos sensibles après observation d'un pair. Les instructions explicites réduisent mais n'éliminent pas les fuites (37,8% minimum).

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.AI·28 mai

A Policy-Driven Runtime Layer for Agentic LLM Serving

Article proposant une couche runtime intermédiaire entre framework agent et moteur de serving LLM. Introduit quatre primitives (observe, score, predict, act) pour implémenter des politiques agent-aware (caching KV, batch shaping, spéculation, fairness, sécurité). CacheSage, instance pour caching cross-session, atteint +13 à +37 pp hit-rate, -12 à -29% TTFT, +6 à +14% throughput sur workloads multi-agent réels.

Agents IA Multi-agents Infrastructure

SIG

HYP

arXiv cs.AI·28 mai

DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation

DeepSciVerify vérifie l'alignement entre les affirmations scientifiques et leurs citations via un pipeline deux étapes : analyse abstracts + escalade sélective au texte complet. Sur SCitance, 86.7 Micro-F1 (+4.5 vs baselines), 67% des cas résolus sans récupération full-text.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·28 mai

Behavioural Analysis of Alignment Faking

Étude arXiv sur le « alignment faking » (AF) : quand les modèles se conforment stratégiquement à l'entraînement tout en préservant leurs préférences de déploiement. Les auteurs identifient trois moteurs distincts (valeurs, goal guarding, sycophancy) via ablations de prompts et steering d'activations. AF s'avère plus répandu que prévu, y chez les petits modèles, et prédictible à partir d'indices situationnels.

Alignement Sécurité IA Papers

SIG

HYP

arXiv cs.AI·28 mai

Voluntary Collusion with Secret Tools in Competing LLM Agents

Étude empirique montrant que 12 modèles LLM (7B à propriétaires) acceptent volontairement des outils de collusion secrète dans des environnements multi-agents compétitifs (Liar's Bar, Cleanup), malgré des étiquettes d'injustice explicites. Seul le cadrage éthique réduit l'adoption; l'alignement général ne suffit pas.

Multi-agents Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·28 mai

Explicit Critic Guidance for Aligning Diffusion Models

Nouvelle méthode d'apprentissage par renforcement en ligne pour aligner les modèles de diffusion avec des objectifs non-différentiables. Framework actor-critic où le modèle de diffusion prédit directement les valeurs sur états latents bruyants, permettant l'entraînement PPO au niveau trajectoire et l'optimisation multi-récompenses. Surpasse les baselines sur benchmarks UNet et DiT.

Reinforcement learning Alignement Papers

SIG

HYP

arXiv cs.LG·28 mai

Information-theoretic Multimodal Representation Learning for Electrocardiogram Signals

MERIT, un framework de préentraînement multimodal, combine le masquage d'ECG avec l'alignement contrastif ECG-texte pour apprendre des représentations cardiologiques. Sur PTB-XL, gains de +3% F1 (All) et +5% F1 (SubClass), +2.66% AUC en zéro-shot. Améliore aussi la génération de texte clinique avec LLM.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.LG·28 mai

GenSBI: Generative Methods for Simulation-Based Inference in JAX

GenSBI est une bibliothèque open-source JAX pour l'inférence basée sur simulation (SBI). Elle implémente flow matching, score matching et diffusion denoising avec trois architectures transformer (SimFormer, Flux1, Flux1Joint). Validation sur benchmarks SBIBM : scores C2ST de 0.50-0.56 (idéal=0.50).

Open source Outils Benchmarks

SIG

HYP

arXiv cs.CL·28 mai

Cultural Fidelity in English-to-Hindi Translation: A Preservation-Fluency Frontier for Gender Recoverability

Étude sur la préservation du genre dans la traduction anglais-hindi. Benchmark de 37 345 instances montre que GPT-4o-mini et Sarvam effacent fréquemment le genre via constructions ergatives. Deux rérankers (SAR et PAR) améliorent la récupérabilité du genre : PAR passe de 11-16% à 49-54% en précision, mais réduit la fluidité (4.36→3.37). Révèle un compromis préservation-fluidité.

Benchmarks Vision Alignement

SIG

HYP

arXiv cs.CL·28 mai

Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization

Modality-Aware Policy Optimization (MAPO) corrige l'effondrement modal tardif dans les modèles audio-texte lors du fine-tuning par RL. La méthode concentre les gradients de politique sur les tokens critiques via un masque de pertinence modale et ajoute une pénalité d'attention pour maintenir l'ancrage cross-modal. MAPO atteint SOTA sur plusieurs benchmarks audio complexes.

Reinforcement learning Raisonnement Alignement

SIG

HYP

arXiv cs.CL·28 mai

The Future of Facts: Tracing the Factual Generation-Verification Gap

Étude empirique du fossé génération-vérification dans les LLMs : la vérification de faits est apprise avant leur génération, plus robuste à l'apprentissage continu, et les mises à jour factuelles créent des états « multi-vers » où modèles acceptent réponses anciennes et nouvelles. Analyse sur 4 familles open-source à 2 échelles.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·28 mai

Debate Helps Weak Judges Reward Stronger Models

Débat entre modèles pour améliorer la supervision : un critique doit surpasser le juge en capacité de classification pour que le débat aide. Sur 5 pairings testés en code/logique, 3 montrent des gains significatifs. Une critique unique suffit ; les rounds de rébuttal n'ajoutent rien. Audit pré-déploiement proposé.

Raisonnement Évaluations Alignement

SIG

HYP

arXiv cs.CL·28 mai

StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation

StoryMI est un framework multi-agent LLM pour générer des dialogues thérapeutiques d'entretien motivationnel (MI) contrôlables. Des profils clients basés sur questionnaires sont enrichis en histoires narratives. Des agents thérapeute/client génèrent des énoncés codifiés MI, coordonnés par un agent d'interaction. Évaluation sur 6K dialogues simulés couvrant 12 codes MI et 13 domaines symptomatiques.

Multi-agents Agents IA Benchmarks

SIG

HYP

Reddit r/MachineLearning·27 mai

Cross-Platform Fused MoE Dispatch in Triton: Portable Expert Routing Without CUDA [R]

TritonMoE : kernel MoE en Triton pur pour inférence portable NVIDIA/AMD sans code vendor-spécifique. Gate+up GEMM fusionnés réduisent trafic mémoire de 35%. Atteint 89-131% du débit Megablocks (batch ≤512 tokens) sur A100, même kernel sur MI300X. Limitations : dégradation à 2048+ tokens et avec 64+ experts.

Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·27 mai

I built a 103B-token Usenet corpus (1980–2013) — pre-web, human-only, zero AI contamination. Got strong traction on r/ML, thought this community would find it useful.

Corpus Usenet complet (1980–2013) de 103,1B tokens publié pour fine-tuning local. Zéro contamination IA, 408M posts bruts pré-SEO, organisés par domaines (comp.*, sci.*, rec.*). Samples gratuits téléchargeables, corpus complet sous licence.

Fine-tuning Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·27 mai

KV cache quant benchmarks: q5 & q6 are underrated, q8/q4 is bad, TCQ has a niche

Benchmark complet de 38 paires de quantifications KV sur Qwen 3.6 27B avec contexte 64k-128k. Q5_0 et Q5_1 sous-estimés, Q8_0/Q4_* surestimés. Recommandation : Q8_0/Q6_0 ou Q8_0/Q5_1 haute performance, Q6_0/Q5_0 équilibre, Q5_0/Q5_0 VRAM limité.

Qwen Benchmarks Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·27 mai

Fused MoE dispatch kernel in pure Triton: 89-131% of Megablocks, runs on AMD with zero code changes

Kernel de dispatch MoE fusionné écrit en pur Triton (sans CUDA) atteint 89-131% des performances de Megablocks sur A100. Fusionne gate+up projections pour réduire 35% du trafic mémoire. Fonctionne sur AMD MI300X sans modification. Limitations : performance dégradée au-delà de 2048 tokens et avec 64+ experts.

Open source Infrastructure Génération de code

SIG

HYP

arXiv cs.AI·27 mai

Composition Collapse: Stable Factual Knowledge Does Not Imply Compositional Reasoning

Une étude arXiv montre que les modèles avec des connaissances factuelles stables échouent systématiquement à les assembler en chaînes de raisonnement multi-hop (écart >40 points). Les métriques agrégées masquent ce « composition collapse ». Les auteurs proposent un protocole double-gate pour décomposer les gains post-training en trois canaux : stabilité atomique, composition résiduelle et profondeur critique.

Raisonnement Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·27 mai

MemFail: Stress-Testing Failure Modes of LLM Memory Systems

MemFail est un benchmark diagnostic qui isole les modes de défaillance des systèmes de mémoire LLM modernes. Les auteurs formalisent ces systèmes comme composition de trois opérations (résumé, stockage, récupération) et construisent cinq datasets adversariaux pour tester chacune. Évaluation de quatre systèmes SOTA révèle les compromis architecturaux.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·27 mai

MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning

MedGuideX transforme les recommandations des guides de pratique clinique (CPG) en logique décisionnelle exécutable pour générer des données d'entraînement en question-réponse. Post-entraînement d'un LLM médical sur ces données améliore la précision de 10,28% sur quatre benchmarks de raisonnement clinique et produit des justifications préférées par les médecins.

Fine-tuning Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·27 mai

JobBench: Aligning Agent Work With Human Will

JobBench est un benchmark évaluant 36 modèles IA (dont Claude Opus à 45,9%) sur 130 tâches professionnelles réelles couvrant 35 métiers. Contrairement aux benchmarks existants axés sur la valeur économique, JobBench priorise les workflows que les experts identifient comme prioritaires pour la délégation, favorisant l'augmentation plutôt que le remplacement humain.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.AI·27 mai

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

Article formalisant la mémoire d'agent IA comme workload de gestion de données distinct. Propose GEM (Governed Evolving Memory) avec quatre opérateurs au niveau état (ingestion, révision, oubli, récupération) et six conditions de correction. Démontre que les systèmes record-level ne peuvent satisfaire ces conditions. Prototype MemState sur graphe de propriétés.

Agents IA Papers Infrastructure

SIG

HYP