Page 20 sur 192

ToutHaut signalRécent

7679 articles

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

Article formalisant la mémoire d'agent IA comme workload de gestion de données distinct. Propose GEM (Governed Evolving Memory) avec quatre opérateurs au niveau état (ingestion, révision, oubli, récupération) et six conditions de correction. Démontre que les systèmes record-level ne peuvent satisfaire ces conditions. Prototype MemState sur graphe de propriétés.

Agents IA Papers Infrastructure

SIG

HYP

arXiv cs.LG·27 mai

The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models

Étude sur le coût des contraintes de sortie structurées pour petits modèles de langage (< 3B). Tests sur Qwen2.5-0.5B/1.5B et SmolLM2-1.7B montrent que forcer la validité du schéma JSON (61.5% → 100%) réduit la précision des réponses (19.7% → 11.0%) et augmente les sorties invalides sémantiquement (49.5% → 88.9%). Recommandation : rapporter séparément validité schéma, précision réponse et taux d'erreurs sémantiques.

Qwen Génération de code Évaluations

SIG

HYP

arXiv cs.CL·27 mai

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Étude mécanistique des hallucinations dans les LLM sur connaissances structurées linéarisées (graphes, tables). Les hallucinations résultent de dynamiques internes systématiques : attention concentrée sur des indices structurels raccourcis, représentations feed-forward ne grounding pas la connaissance fournie, reversion à la mémoire paramétrée. Patterns généralisent à graphes multi-hop et données tabulaires.

Raisonnement Papers Sécurité IA

SIG

HYP

arXiv cs.LG·27 mai

Unified Neural Scaling Laws

Nouvelle loi de scaling unifiée (UNSL) modélisant simultanément l'impact de la taille du modèle, du dataset, des étapes d'entraînement, des étapes d'inférence et des hyperparamètres sur la performance. Validée sur vision, langage, math et RL avec extrapolations plus précises que les formulations existantes.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion

AirCast-SR est un modèle de super-résolution atmosphérique qui affine les prévisions météorologiques IA globales de 28 km à 1 km de résolution horizontale. Basé sur un U-Net 3D conditionné par diffusion LCM, entraîné sur les prévisions GraphCast et les données NOAA, il produit des prévisions de 67 heures sans biais et démontre une transférabilité zéro-shot sur l'Inde et l'Allemagne.

Papers Benchmarks Open source

SIG

HYP

arXiv cs.AI·27 mai

JobBench: Aligning Agent Work With Human Will

JobBench est un benchmark évaluant 36 modèles IA (dont Claude Opus à 45,9%) sur 130 tâches professionnelles réelles couvrant 35 métiers. Contrairement aux benchmarks existants axés sur la valeur économique, JobBench priorise les workflows que les experts identifient comme prioritaires pour la délégation, favorisant l'augmentation plutôt que le remplacement humain.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.AI·27 mai

MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning

MedGuideX transforme les recommandations des guides de pratique clinique (CPG) en logique décisionnelle exécutable pour générer des données d'entraînement en question-réponse. Post-entraînement d'un LLM médical sur ces données améliore la précision de 10,28% sur quatre benchmarks de raisonnement clinique et produit des justifications préférées par les médecins.

Fine-tuning Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·27 mai

MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability

MechRL utilise un agent RL (PPO) opérant sur 144 têtes d'attention de GPT-2 small pour découvrir automatiquement les circuits mécanistiques. Entraîné sur induction et IOI, l'agent identifie les têtes causalement pertinentes via ablation zéro et récompense contrastive, généralisant à docstring completion (96% de l'oracle en best-of-five).

Reinforcement learning Évaluations Papers

SIG

HYP

arXiv cs.LG·27 mai

TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models

TSFMAudit, première méthode d'audit de contamination de données pour modèles de fondation en séries temporelles (TSFMs). Détecte si des datasets d'évaluation ont été exposés lors du préentraînement en analysant la dynamique d'adaptation fine-tuning : les données contaminées montrent une réduction de perte anormalement rapide. Évalué sur 6 TSFMs et 187 datasets.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·27 mai

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

ARBITER corrige les défaillances du vote majoritaire en test-time sampling. Les trajectoires de raisonnement se concentrent en clusters (bassins) stables mais pas nécessairement corrects. ARBITER utilise les états cachés et preuves du modèle pour ajouter des preuves conservatives au consensus, récupérant ~22% de l'écart oracle sur Llama-3.1-8B MMLU-HS-Math (78%→82%).

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training

GAC est un contrôleur adaptatif pour l'entraînement hybride SFT-RL qui ajuste dynamiquement le poids de mélange en fonction de l'estimation en ligne de la variance des gradients et du désaccord entre les deux signaux. Testé sur des benchmarks math, code, science et logique, GAC améliore les baselines fixes avec moins de 1% de surcharge computationnelle.

Reinforcement learning Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·27 mai

Composition Collapse: Stable Factual Knowledge Does Not Imply Compositional Reasoning

Une étude arXiv montre que les modèles avec des connaissances factuelles stables échouent systématiquement à les assembler en chaînes de raisonnement multi-hop (écart >40 points). Les métriques agrégées masquent ce « composition collapse ». Les auteurs proposent un protocole double-gate pour décomposer les gains post-training en trois canaux : stabilité atomique, composition résiduelle et profondeur critique.

Raisonnement Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·27 mai

Curriculum Learning for Safety Alignment

Staged-Competence, un framework de curriculum learning, améliore la robustesse de l'alignement de sécurité basé sur DPO. Sur trois familles de modèles, il réduit les taux de réponses nuisibles hors-distribution de 16% et les taux de succès des attaques jailbreak de 20%, tout en préservant les capacités générales. Le framework atteint la sécurité de base avec 75% des données d'entraînement.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.AI·27 mai

It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers

Étude de 432 expériences sur 6 modèles (4 tiers de capacité) testant l'hypothèse que les modèles plus puissants nécessitent moins de structure. Résultats : relation non-monotone. Gemini 2.5 Flash voit ses performances baisser de 29-38pp avec plus de verbosité. Qwen3.5-122B (reasoning) atteint 91.7% VTSR avec harness strict. Taxonomie de 6 défaillances identifiée.

Agents IA Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·27 mai

FAB-Bench: A Framework for Adaptive RAG Benchmarking in Semiconductor Manufacturing

FAB-Bench est un framework de benchmarking adaptatif pour évaluer les systèmes RAG en fabrication semiconducteurs. Il définit 6 métriques diagnostiques (précision factuelle, utilisation contextuelle, complétude, pertinence de retrieval, profondeur technique, cohérence du raisonnement) sur des fenêtres de contexte 4K-32K tokens. Benchmark de 200 paires query-answer testé sur 4 LLMs et 4 frameworks RAG.

RAG Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·27 mai

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

LiveK12Bench est un benchmark dynamique multi-disciplinaire évaluant les capacités de raisonnement des modèles multimodaux sur 2K+ questions d'examens réels (Maths, Physique, Chimie, Biologie). Les tests révèlent une dégradation majeure : GPT-5 chute de 79 à 53/100 sous contraintes réalistes d'examen. Le framework inclut un pipeline automatisé anti-contamination et un schéma d'évaluation « Mock Exam » end-to-end.

Benchmarks Vision Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

Stateful Inference for Low-Latency Multi-Agent Tool Calling

Architecture d'inférence avec état persistant pour appels d'outils multi-agents. Cache KV persistent entre les tours, coût réduit de O(n_t) à O(Δ_t). Speedup 2.1× sur workflows 6-tours, 4.2× sur workflows 35-tours vs vLLM/SGLang.

Agents IA Multi-agents Infrastructure

SIG

HYP

arXiv cs.LG·27 mai

Provably Communication-Efficient and Privacy-Preserving Federated Graph Neural Networks

CE-FedGNN est un framework fédéré pour les réseaux de neurones graphiques (GNNs) qui réduit la communication en échangeant rarement des représentations agrégées plutôt que des embeddings à chaque round. Un estimateur de moyenne mobile gère les dépendances cross-client et la staleness. Le framework garantit la confidentialité via metric-DP et converge en O(1/√T) avec complexité de communication O(T^3/4).

SIG

HYP

arXiv cs.LG·27 mai

A PAC-Bayesian View of Generalisation for Physics-Informed Machine Learning

Cadre PAC-Bayésien pour l'apprentissage informé par la physique (PIML) intégrant les équations différentielles partielles. Fournit des garanties de généralisation haute probabilité avec pertes non bornées via perspective multi-tâche. Bornes non-vacueuses validées sur benchmarks PDE standards.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·27 mai

Online Learning on Hidden-Convex Losses via Algorithmic Equivalence: Optimal Regret, Geometric Barrier, and Bandit Feedback

Étude de l'apprentissage en ligne adversarial sur pertes cachées-convexes (nonconvexes devenant convexes après reparamétrisation). Les auteurs prouvent que la descente de gradient en ligne (OGD) atteint un regret optimal Θ(√T), améliorant le résultat O(T^2/3) antérieur. Ils caractérisent la condition de compatibilité Hessienne nécessaire-suffisante et étendent l'analyse au feedback bandit avec regret O(T^3/4).

Papers Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·27 mai

Probing Minimalist Phase Structure in LLMs: What Universal Dependencies Cannot Represent

Des chercheurs testent si les LLM encodent des structures syntaxiques formelles (phase boundaries du Minimalist Program) invisibles aux Universal Dependencies. Sur 13 modèles (4 familles), 12/13 montrent un gradient lié au nombre de phases, et 13/13 une asymétrie prédite par la cohésion intra-phase. L'activation patching confirme ces représentations sont causalement actives.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·27 mai

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un benchmark évaluant la théorie de l'esprit dans les LLM via la modélisation explicite des croyances. Construit sur 895 histoires (22 343 propositions de croyances annotées), il teste l'extraction et l'étiquetage des états mentaux selon 7 dimensions. Les résultats montrent que les LLM actuels peinent à transformer les faits narratifs en croyances d'acteurs.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·27 mai

Verilog-Evolve: Feedback-Driven and Skill-Evolving Verilog Generation

Verilog-Evolve est un framework de raffinement itératif du code Verilog généré par LLM. Le système évalue les candidats via simulation fonctionnelle, synthèse Yosys, timing ABC et métriques GEMM, puis évolue des compétences modulaires entre tâches. Résultats sur VerilogEval : meilleure stabilité fonctionnelle et qualité RTL downstream.

Génération de code Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·27 mai

MicroSpec: Accelerating Speculative Decoding with Lightweight In-Context Vocabularies

MicroSpec réduit le vocabulaire actif de 40x (sous 3k tokens) lors du décodage spéculatif sans entraînement supplémentaire. La technique exploite la localité temporelle du langage et intègre gestion GPU asynchrone. Speedup end-to-end de 1.12-1.32x vs EAGLE-2.

Génération de code Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·27 mai

What Makes Chain-of-Thought Work at Probe Time? Local Co-occurrence Rather Than Global Derivation

Étude sur le mécanisme du chain-of-thought (CoT) au moment de l'inférence. Les auteurs montrent que l'amélioration de performance provient principalement d'une activation lexicale et de co-occurrences de tokens à courte portée (2-3 tokens), plutôt que d'une dérivation logique globale. Même un texte avec mots mélangés surpasse l'absence de rationale.

Raisonnement Prompt engineering Papers

SIG

HYP

arXiv cs.AI·27 mai

MobileExplorer: Accelerating On-Device Inference for Mobile GUI Agents via Online Exploration

MobileExplorer accélère l'inférence sur appareil pour les agents GUI mobiles via exploration en ligne. Le framework exploite le temps de raisonnement des VLM pour explorer parallèlement les éléments UI, enregistrant les traces comme mémoire structurée. Avec un mécanisme de rollback deux niveaux, il réduit les étapes de raisonnement et la latence de 23% sur AndroidWorld.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.LG·27 mai

QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling

QAM-W est un codec de quantification 2D pour poids de LLM qui utilise rotation Hadamard et mise à l'échelle consciente de l'activation. Sur 5 modèles (1.1B–13B), la variante activation-aware à ~5.5 bpw maintient ±0.4% de perplexité BF16, égalant SmoothQuant W8A8 avec 32% moins de bits. Le codage 2D surpasse le codage polaire de 2–15 pp.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.AI·27 mai

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Les modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.

Raisonnement Sécurité IA Alignement

SIG

HYP

Reddit r/LocalLLaMA·26 mai

SkillOpt treats markdown skill files as trainable parameters with proper optimization machinery

SkillOpt formalise l'optimisation de fichiers markdown comme paramètres entraînables via éditions bornées (ajout/suppression/remplacement) proposées par un modèle frontier et validées sur un ensemble de test. Les meilleures compétences convergent avec 1-4 éditions acceptées sur ~920 tokens. Une compétence optimisée sur Codex transfère à Claude Code (+59.7 SpreadsheetBench) sans modification.

Agents IA Prompt engineering Génération de code

SIG

HYP

arXiv cs.AI·26 mai

Accelerating Long-Tail Generation in Synchronous RLHF Training via Adaptive Tensor Parallelism

PAT, une méthode de parallélisme tensoriel adaptatif, optimise l'étape de génération en RLHF synchrone. Elle reconfigure dynamiquement la parallélisation pendant le décodage pour compenser le déséquilibre de longueur de réponses. Implémentée sur SGLang/VeRL, PAT réduit la latence de génération jusqu'à 34,6% sur LLaMA3.1-8B et Qwen3-14B.

Reinforcement learning Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·26 mai

Measuring the Depth of LLM Unlearning via Activation Patching

Nouvelle métrique UDS (Unlearning Depth Score) pour évaluer si les connaissances sont vraiment effacées dans les LLM. Via activation patching, UDS mesure la profondeur mécanique de l'oubli couche par couche. Évaluation sur 150 modèles et 8 méthodes : UDS surpasse 20 métriques existantes en fidélité et robustesse.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.AI·26 mai

DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning

DRIVE est un framework de modélisation duale pour agents web en apprentissage continu. Il sépare les expériences en skills de raisonnement (logique transférable entre sites) et skills d'interaction (opérations exécutables spécifiques). Sur WebArena, DRIVE atteint 52,8% de taux de succès, +7,3pp vs baseline.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.LG·26 mai

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

IRNO (Iterative Refinement Neural Operator) améliore les opérateurs neuronaux en ajoutant un module d'affinement itératif basé sur la théorie des points fixes. Une perte spectrale progressive cible explicitement les erreurs haute fréquence. Résultats : 56% d'amélioration sur flux turbulent, réduction d'erreur de 1.48-2.04% en haute fréquence sur Active Matter.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

Verified SHAP: Provable Bounds for Exact Shapley Values of Neural Networks

Algorithme pour calculer des bornes exactes sur les valeurs SHAP de réseaux de neurones en exploitant la vérification neuronale. Réduit la complexité exponentielle et scale à des espaces de recherche bien plus grands que les méthodes exactes existantes.

Évaluations Papers Raisonnement

SIG

HYP

arXiv cs.LG·26 mai

Knowledge Graph Modulated Deep Learning for Limited-Sample Clinical Data Analysis

Graph-in-Graph (GiG) intègre des graphes de connaissances biologiques dans l'apprentissage profond pour l'analyse clinique avec données limitées. Testé sur ~9 700 patients et 5 tâches (détection cancer, diagnostic prostate, classification pan-cancer), GiG surpasse les méthodes existantes, avec gains jusqu'à 49 points de macro-F1 en contexte limité.

Papers Benchmarks RAG

SIG

HYP

arXiv cs.LG·26 mai

Interdomain Attention: Beyond Token-Level Key-Value Memory

Interdomain Attention fusionne transformers et state space models via méthodes kernel : les features d'attention sont projetées sur des fonctions de base maintenues par un SSM, permettant une attention query-conditionnée sur état fixe. Sur FineWeb-Edu (125M-1.3B), surpasse les baselines softmax à 1.3B en perplexité et commonsense, avec comportement length-flat jusqu'à 3.5x le contexte d'entraînement.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·26 mai

An Interactive Paradigm for Deep Research

SteER est un framework pour la recherche approfondie interactive utilisant les LLM. Il introduit des points de contrôle interprétables permettant à l'utilisateur de corriger la trajectoire mid-process via une formulation coût-bénéfice. Résultats : +22,80% sur l'alignement vs baselines, préféré par les lecteurs dans 85%+ des cas.

Agents IA Raisonnement RAG

SIG

HYP

arXiv cs.CL·26 mai

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

SEAL est un framework de co-évolution fermée pour agents LLM utilisant des outils. Il collecte des trajectoires vérifiables, diagnostique les échecs au niveau des tours, et utilise ces signaux pour adapter simultanément l'environnement d'apprentissage et la politique de l'agent. Avec 400 exemples, SEAL gagne +8.25 à +26.25 points sur trois backbones et transfère bien hors-distribution.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·26 mai

Found in Conversation: LLMs Teach Themselves to Close the Multi-Turn Gap

Found in Conversation (FiC) est un framework d'entraînement où les LLMs s'auto-enseignent à combler l'écart multi-tour (Lost-in-Conversation). Via View-Asymmetric Self-Distillation, le modèle distille entre une vue single-turn (teacher) et multi-turn (student). Testé sur Llama, Qwen, Phi, OLMo (3B-14B), FiC récupère 92-100% des performances single-turn.

Llama Qwen Fine-tuning

SIG

HYP

arXiv cs.CL·26 mai

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill propose une méthode d'auto-distillation alignée pour renforcer la robustesse des modèles audio-LLM face au bruit. Un étudiant bruyant est optimisé via GRPO en utilisant un enseignant audio-propre comme référence sémantique. Résultats : +4.18% GSR sous bruit fort vs baseline, +3.02% Acc sur Qwen-Omni.

Reinforcement learning Fine-tuning

SIG

HYP