Page 18 sur 138

ToutHaut signalRécent
5498 articles
arXiv cs.AI·

CBT-Audio: Evaluating Audio Language Models for Patient-Side Distress Intensity Estimation in CBT Session Recordings

CBT-Audio est un dataset de 1,802 tours de parole issus de 96 enregistrements CBT publics, avec labels de détresse validés par experts. L'évaluation de 10 modèles audio open-source montre que l'audio améliore l'estimation de détresse par rapport au texte seul dans 8/10 familles de modèles, particulièrement quand contenu verbal et prosodie divergent.

BenchmarksVoixÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis

MEMOIR, un framework de recherche arborescente guidée par mémoire, synthétise automatiquement des solveurs pour l'optimisation combinatoire via LLM. Avec une hiérarchie mémoire à deux niveaux (locale et globale), il atteint 96,7% de validité sur 7 problèmes (scheduling, routing, packing), surpassant les baselines de 9,2 points et réduisant la variance inter-exécutions d'un ordre de magnitude.

Agents IARaisonnementGénération de code
SIG
78
HYP
25
arXiv cs.AI·

GraphMind: From Operational Traces to Self-Evolving Workflow Automation

GraphMind automatise les workflows opérationnels complexes en extrayant des graphes d'actions à partir de traces humaines, puis les exécute via un moteur multi-agent avec raisonnement LLM. Un mécanisme d'apprentissage par renforcement (ATR) optimise les chemins réussis. Déployé sur 4 services cloud, le système surpasse un baseline Trace-RAG avec un score 4.95/5 en révision experte.

Multi-agentsRAGReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents

Architecture mémoire dual-process pour agents scientifiques : découple fenêtre épisodique (10 messages) de consolidation sémantique (3 tokens/message). Évaluation sur 15,000 messages, 6 LLMs (OpenAI, Anthropic, Google) : maintient 70-85% précision à 10,000 messages avec 62% moins de tokens. Identifie trade-offs : Dual Process excelle requêtes numériques/temporelles, RAG pour récupération historique.

Agents IARaisonnementRAG
SIG
78
HYP
25
arXiv cs.AI·

Surface-Form Neural Sparse Retrieval: Robust Fuzzy Matching for Industrial Music Search

Amazon Music déploie un système de récupération neurale sparse robuste pour la recherche musicale à grande échelle. Le système gère les fautes de frappe, transpositions et variations phonétiques avec 91,4% de recall@10 sur 6M documents, surpassant les trigrammes (57,7%). Architecture inference-free avec tokenization subword granulaire (max 3 chars) et zéro latence en ligne.

RAGEmbeddingsRecherche vectorielle
SIG
78
HYP
15
arXiv cs.AI·

KISS - Knowledge Infrastructure for Scientific Simulation: A Scaffolding for Agentic Earth Science

KISS introduit une infrastructure de connaissances (KI) pour permettre aux agents IA d'exécuter des simulations scientifiques complexes en Earth sciences. Sur 3 000 essais, les agents équipés de KI produisent des simulations valides à 84%, contre <40% sans KI. Un toolkit automatisé (KDT) a généré 119 KIs couvrant 14 domaines scientifiques, démontrant que l'expertise opérationnelle est structurable et extractible.

Agents IARaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Unleashing LLMs in Bayesian Optimization: Preference-Guided Framework for Scientific Discovery

LGBO (LLM-Guided Bayesian Optimization) intègre le raisonnement sémantique des LLM dans chaque itération d'optimisation bayésienne via un mécanisme de préférence. Testé sur benchmarks en physique, chimie, biologie et science des matériaux, LGBO atteint 90% de la meilleure valeur en 6 itérations sur l'optimisation d'électrolytes Fe-Cr, contre 10+ pour BO standard.

RaisonnementBenchmarksPapers
SIG
78
HYP
25
arXiv cs.AI·

TaskGround: Structured Executable Task Inference for Full-Scene Household Reasoning

TaskGround est un framework d'inférence de tâches pour agents domestiques opérant sur des scènes complètes. Il structure le raisonnement en trois étapes : grounding (extraction de contexte pertinent), inférence (structure exécutable), exécution (séquences d'actions). Évalué sur FullHome (400 tâches), il améliore les taux de succès et rend Qwen3.5-9B compétitif avec GPT-5 tout en réduisant les coûts de tokens de 18x.

Agents IARaisonnementRobotique
SIG
78
HYP
25
arXiv cs.AI·

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

SD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant conditionné sur les résultats passés guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

RaisonnementReinforcement learningRAG
SIG
78
HYP
15
arXiv cs.AI·

SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

SkillGenBench est un benchmark pour évaluer les pipelines de génération de compétences pour agents LLM. Il couvre deux régimes : génération conditionnée par tâche et génération agnostique aux tâches, avec sources procédurales basées sur des dépôts ou documents. Les expériences révèlent une variation substantielle de performance et des modes d'échec distincts.

Agents IABenchmarksGénération de code
SIG
78
HYP
15
arXiv cs.AI·

Helping Customers in Distress: An LLM-powered Agent that Converses, Probes, and Routes

Une banque développe un agent IA conversationnel pour trier les cas de fraude, arnaque et litiges. L'agent utilise des LLM pour poser des questions ciblées et router les clients vers les bons services. Évaluation via jumeaux numériques synthétiques simulant des dialogues réalistes. Résultat : +30,6% de précision en classification avec conformité garantie.

Agents IARaisonnementSécurité IA
SIG
78
HYP
25
arXiv cs.AI·

Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States

COAST (Contrastive Conceptor Activation Steering) améliore les modèles Vision-Language-Action en identifiant et en guidant les représentations latentes vers des sous-espaces critiques pour la réussite. Sur trois architectures distinctes, COAST augmente le taux de succès de +20% en simulation et +40% sur robots réels, sans entraînement supplémentaire.

VisionRobotiqueRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

LARGER: Lexically Anchored Repository Graph Exploration and Retrieval

LARGER est un framework de récupération de contexte pour agents de codage au niveau repository. Il combine recherche lexicale et exploration de graphe structurel (imports, appels, hiérarchies de types) sans nécessiter de bases de données externes. Sur LocBench, il améliore la précision de +13.9 points (ou +11.8 avec hyperparamètres fixes) et gagne sur test generation et question-answering sur codebase.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

State-of-the-Art Claims Require State-of-the-Art Evidence

Étude critique des affirmations « state-of-the-art » en IA/ML. Analyse de 10 benchmarks publics révèle que plus de 50% des comparaisons de modèles top ne supportent pas les propriétés implicites de supériorité (effet significatif, consistance inter-tâches, robustesse). Les gains agrégés reposent souvent sur des datasets aberrants. Propose un langage de claim plus honnête sans expériences supplémentaires.

BenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Les chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation sous contrainte budgétaire. Ils introduisent la « granularité conceptuelle » pour expliquer pourquoi certains concepts sont coûteux à contrôler, et proposent GRACE, un framework qui utilise la géométrie d'activation pour diagnostiquer les difficultés et réduire de 39,8% les évaluations nécessaires.

RaisonnementAlignementPapers
SIG
78
HYP
15
arXiv cs.AI·

The Impact of AI Search on the Online Content Ecosystem: Evidence from Google and Reddit

Étude empirique sur l'impact des Google AI Overviews sur Reddit. Utilisant une stratégie d'identification basée sur la politique de modération (communautés SFW vs NSFW), les auteurs trouvent que les AI Overviews augmentent l'engagement dans les communautés SFW de +12% (commentaires) et +12.3% (utilisateurs), mais seulement pour le contenu expérientiel. L'introduction du Google AI Mode élimine ces gains.

DeepMindBenchmarksBusiness
SIG
78
HYP
15
arXiv cs.AI·

Physics-Guided Geometric Diffusion for Macro Placement Generation

MacroDiff+ est un framework de diffusion géométrique guidé par la physique pour l'optimisation du placement de macros en conception VLSI. Utilisant une architecture dual-domain (GNN hétérogènes + Transformer) et un échantillonnage guidé par gradients physiques, il réduit la longueur de fil de 6.1-6.2% sur les benchmarks ISPD2005 avec meilleure stabilité sur designs large-scale.

BenchmarksPapersRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

Asking Back: Interaction-Layer Antidistillation Watermarks

Nouvelle approche de watermarking contre la distillation non autorisée d'LLM : des marqueurs comportementaux (questions de suivi, variantes basse fréquence, reformulations) injectés via prompt système. Testée sur 63 modèles LoRA distillés de Llama-3.3-70B, avec transfert de 88,9% (Gemma) à 45,2% (Qwen). Robustesse validée contre paraphrasage DIPPER et étude utilisateur (N=20) confirmant l'imperceptibilité.

Sécurité IAAlignementLlama
SIG
78
HYP
15
arXiv cs.AI·

Strategic Over-Parameterization for Generalizable Low-Rank Adaptation

LoRA-Over améliore l'adaptation efficace en paramètres (PEFT) en enrichissant le paysage d'optimisation durant l'entraînement via sur-paramétrisation auxiliaire, puis en repliant cette enrichissement dans une structure LoRA standard à l'inférence. Évalué sur GLUE, MT-Bench, GSM8K et HumanEval avec LLaMA 2-7B et 3.1-8B, le framework surpasse LoRA vanilla sans coût d'inférence supplémentaire.

Fine-tuningLlamaBenchmarks
SIG
78
HYP
18
arXiv cs.AI·

How Few-Shot Examples Add Up: A Causal Decomposition of Function Vectors in In-Context Learning

Étude mécanistique de l'apprentissage en contexte (ICL) : les vecteurs de fonction n-shot se décomposent linéairement en contributions d'exemples individuels. Les modèles repondèrent adaptivement les démonstrations via attention, privilégiant les exemples informatifs et non-ambigus. L'alignement Query-Key domine la qualité du vecteur de fonction.

RaisonnementÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.AI·

\textsc{PrivScope}: Task-scoped Disclosure Control for Hybrid Agentic Systems

PrivScope est un contrôleur de charge utile local qui applique une divulgation limitée au périmètre de la tâche à la frontière local-cloud pour les systèmes agents hybrides. Sur 100 workflows de réservation médicale, il élimine 100% des fuites de profil (vs 17,7%), réduit de moitié la réidentification (23,1% vs 64,3%) et maintient le succès des tâches sans modifications côté cloud.

Agents IASécurité IABenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Causely: A Causal Intelligence Layer for Enterprise AI A Benchmark Study on SRE and Reliability Workflows

Causely est une couche d'intelligence causale pour les workflows SRE qui structure la topologie d'environnement et les dépendances causales. Benchmark sur 4 configurations d'agents (Claude Code, OpenAI Codex, HolmesGPT) : avec Causely, diagnostic 63% plus rapide, consommation tokens -60%, appels outils -78%, coût API -57%, précision diagnostic 75%→100%.

Agents IABenchmarksClaude Code
SIG
78
HYP
25
arXiv cs.AI·

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

AgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur configurations inédites. Cursor Agent, Claude Code et Codex Agent atteignent des speedups jusqu'à 6.89x, mais les optimisations PyTorch-to-HIP montrent des chutes de correction sur configurations non vues.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models

Nouveau corpus parallèle AG-MG de 132 481 paires de phrases pour la traduction du grec ancien au grec moderne. Pipeline de création combinant web-scraping, alignement VecAlign avec embeddings LaBSE fine-tunés, et correction LLM via Gemini 2.5 Flash. Benchmark de modèles NMT (NLLB, M2M100) et LLM grec (Llama-Krikri-8B) : fine-tuning complet atteint 13.16 BLEU, gains jusqu'à +10.3 points.

BenchmarksFine-tuningEmbeddings
SIG
78
HYP
15
arXiv cs.AI·

PhysioSeq2Seq: A Hybrid Physiological Digital Twin and Sequence-to-Sequence LSTM for Long-Horizon Glucose Forecasting in Type 1 Diabetes

PhysioSeq2Seq combine un modèle physiologique numérique patient-spécifique avec un LSTM Seq2Seq pour prédire la glycémie sur 240 minutes chez les diabétiques de type 1. Entraîné sur 348 participants (T1DEXI), évalué sur 74 : MAE 39.28 mg/dL à l'horizon 240 min, réduisant le biais de 13.89 mg/dL vs LSTM récursif.

RaisonnementReinforcement learningBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLM en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.

RaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

STT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLM à adapter leurs plans face à des changements spatio-temporels dynamiques. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL en ligne.

Agents IABenchmarksReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

Adversarial Fragility and Language Vulnerability in Clinical AI: A Systematic Audit of Diagnostic Collapse Under Imperceptible Perturbations and Cross-Lingual Drift in Low-Resource Healthcare Settings

Audit systématique de deux vulnérabilités critiques dans l'IA clinique : fragilité adversariale et dérive linguistique. Sur CheXNet (DenseNet121), la précision s'effondre de 89,3% à 62,0% sous perturbation FGM imperceptible (epsilon=0,021). Llama3.1:8b et NatLAS montrent dégradation majeure sur pidgin nigérian et yoruba (80%→65%, 85%→55%). Défenses standard inefficaces.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

DynMuon: A Dynamic Spectral Shaping View of Muon

DynMuon étend Muon en remplaçant la mise à jour M par U·Σ^p·V† avec un paramètre p dynamique. La théorie montre que p positif accélère la contraction du signal en début d'entraînement, tandis que p légèrement négatif réalloue la force de mise à jour vers les directions basse-courbure en fin d'entraînement. DynMuon réduit de 10,6-26,5% le nombre d'étapes pour atteindre une perte cible donnée.

RaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

DashAttention propose une méthode d'attention hiérarchique différentiable utilisant la transformation α-entmax pour sélectionner adaptativement un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton surpasse FlashAttention-3.

RaisonnementInfrastructureBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Beyond Execution: Static-Analysis Rewards and Hint-Conditioned Diffusion RL for Code Generation

Étude empirique de RL post-training pour la génération de code par diffusion. Les auteurs proposent des récompenses sans exécution (static checking) et un échantillonnage conditionné par hints AST pour contourner le « capability cliff ». Static checking améliore DiffuCoder de 53.9 à 67.1 sur HumanEval et réduit le temps de rollout de 9.4%.

Génération de codeReinforcement learningBenchmarks
SIG
78
HYP
15