Page 31 sur 192

ToutHaut signalRécent

7679 articles

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

AASIST3 améliore la détection de deepfakes vocaux en intégrant des réseaux de Kolmogorov-Arnold (KAN) au framework AASIST. Le modèle atteint minDCF=0.5357 (closed) et 0.1414 (open) sur ASVspoof 2024, doublant les performances précédentes. Code disponible sur HuggingFace.

Voix Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

DocReward: A Document Reward Model for Structuring and Stylizing

DocReward est un modèle de récompense évaluant la structure et le style des documents professionnels, indépendamment de la qualité textuelle. Entraîné sur DocPair (117K paires de documents, 32 domaines), il surpasse GPT-4 de 14,6 points et guide efficacement les agents via RL vers une meilleure professionnalité structurelle et stylistique.

Reinforcement learning Agents IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Attractor-Vascular Coupling Theory: Formal Grounding and Empirical Validation for AAMI-Standard Cuffless Blood Pressure Estimation from Smartphone Photoplethysmography

Théorie du couplage attracteur-vasculaire (AVCT) : cadre mathématique montrant que la géométrie de l'attracteur cardiaque encode l'information de pression artérielle. Modèle LightGBM calibré sur PPG smartphone atteint MAE 2.05 mmHg (SBP) et 1.67 mmHg (DBP) en validation LOSO-CV stricte (46 sujets, 29,684 fenêtres), satisfaisant critères AAMI/IEEE SP10. PPG seul égale ECG+PPG à 0.05 mmHg près.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Language-Switching Triggers Take a Latent Detour Through Language Models

Étude de circuit d'une backdoor dans un modèle 8B : un trigger Latin de 3 mots redirige la sortie anglaise vers le français. Le circuit opère en 3 phases via des têtes d'attention, une propagation orthogonale aux directions de langue naturelle, puis conversion MLP. Un goulot d'étranglement sériel à une position unique contrôle tout le flux.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

Property-Guided LLM Program Synthesis for Planning

Approche de synthèse de programmes guidée par propriétés formelles pour réduire les coûts LLM. Au lieu de scores numériques simples, le système vérifie si un candidat satisfait une propriété définie formellement et fournit des contre-exemples concrets en cas de violation. Sur des domaines PDDL, cette méthode génère 7× moins de programmes et réduit drastiquement les coûts d'évaluation.

Génération de code Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents

Architecture mémoire dual-process pour agents scientifiques : découple fenêtre épisodique (10 messages) de consolidation sémantique (3 tokens/message). Évaluation sur 15,000 messages, 6 LLMs (OpenAI, Anthropic, Google) : maintient 70-85% précision à 10,000 messages avec 62% moins de tokens. Identifie trade-offs : Dual Process excelle requêtes numériques/temporelles, RAG pour récupération historique.

Agents IA Raisonnement RAG

SIG

HYP

arXiv cs.CL·19 mai

Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts

Red-Bandit est un framework de red-teaming qui adapte en temps réel des experts LoRA spécialisés dans différents styles d'attaque (manipulation, argot) via apprentissage par renforcement. Un algorithme de bandit multi-bras sélectionne dynamiquement l'expert optimal selon la sécurité des réponses du modèle cible. Résultats SOTA sur AdvBench avec prompts plus lisibles.

Sécurité IA Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

GraphMind: From Operational Traces to Self-Evolving Workflow Automation

GraphMind automatise les workflows opérationnels complexes en extrayant des graphes d'actions à partir de traces humaines, puis les exécute via un moteur multi-agent avec raisonnement LLM. Un mécanisme d'apprentissage par renforcement (ATR) optimise les chemins réussis. Déployé sur 4 services cloud, le système surpasse un baseline Trace-RAG avec un score 4.95/5 en révision experte.

Multi-agents RAG Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents

ClawForge est un framework de benchmark pour agents CLI testant la gestion d'état persistant et de conflits. 17 scénarios, 6 catégories d'aptitudes. Sept modèles frontier évalués : meilleur score 45,3%, écart maximal 17-90% selon inspection d'état préexistant.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis

MEMOIR, un framework de recherche arborescente guidée par mémoire, synthétise automatiquement des solveurs pour l'optimisation combinatoire via LLM. Avec une hiérarchie mémoire à deux niveaux (locale et globale), il atteint 96,7% de validité sur 7 problèmes (scheduling, routing, packing), surpassant les baselines de 9,2 points et réduisant la variance inter-exécutions d'un ordre de magnitude.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·19 mai

CarbonScaling: Extending Neural Scaling Laws for Carbon Footprint in Large Language Models

CarbonScaling est un framework analytique pour modéliser l'empreinte carbone de l'entraînement des LLM à l'échelle frontière. Il intègre les lois de scaling neural, les stratégies d'entraînement distribué, la modélisation du matériel et du carbone opérationnel/incorporé. Le code source est disponible sur GitHub.

Benchmarks Papers Infrastructure

SIG

HYP

arXiv cs.CL·19 mai

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

BacktestBench est le premier benchmark large-scale pour le backtesting quantitatif automatisé, contenant 18 246 paires question-réponse annotées sur 6 millions de données de marché réelles. AutoBacktest, un système multi-agent, traduit les stratégies en langage naturel en backtests reproductibles via un Summarizer, un Retriever SQL et un Coder Python. Évaluation sur 23 LLMs mainstream.

Benchmarks Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·19 mai

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

Étude systématique de la compression de modèles MoE (Qwen3-Next-80A3B → 23A2B) via pruning et distillation à l'échelle du préentraînement. Le pruning surpasse l'entraînement from-scratch, la distillation multi-token (MTP) améliore les performances, et les schedules progressifs battent la compression one-shot.

Qwen Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Chercheurs proposent l'Indice de Refus (RI), métrique mesurant la capacité des LLM à refuser les questions hors de leurs connaissances. RI corrèle la probabilité de refus avec la probabilité d'erreur via Spearman. Tests sur 16 modèles et 5 datasets montrent que les LLM refusent de façon instable malgré une haute précision factuelle.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents

EnactToM est un benchmark d'IA évolutif contenant 300 tâches multi-agents en environnement 3D avec observabilité partielle. Il teste la capacité des agents à agir sur des croyances implicites (ToM fonctionnelle) plutôt que de répondre à des questions directes. Les 7 modèles frontière évalués obtiennent 0% sur les tâches difficiles, révélant des défaillances en coordination épistémique.

Multi-agents Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Embodied Task Planning via Graph-Informed Action Generation with Large Language Models

GiG, un framework de planification pour agents incarnés, utilise une architecture Graph-in-Graph avec GNN pour encoder les états environnementaux et structurer la mémoire d'expérience. Un module de lookahead borné améliore la planification via logique symbolique. Évalué sur Robotouille et ALFWorld, GiG surpasse les baselines avec +22% à +37% de gains Pass@1.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Language models fail at extended rule following

Les modèles de langage échouent à appliquer des règles simples de manière fiable sur des séquences longues. Test sur 126 variantes : tous les modèles ne peuvent pas compter au-delà d'un seuil dépendant du modèle. Les défaillances sont abruptes et persistent malgré l'augmentation de la taille et du calcul. L'analyse mécanique révèle que les modèles utilisent un nombre fini d'états internes pour simuler le comptage.

Raisonnement Benchmarks Agents IA

SIG

HYP

arXiv cs.AI·19 mai

MolClaw: An Autonomous Agent with Hierarchical Skills for Drug Molecule Evaluation, Screening, and Optimization

MolClaw est un agent autonome avec architecture hiérarchique à 3 niveaux (70 compétences) pour l'évaluation, le criblage et l'optimisation de molécules pharmaceutiques. Il intègre 30+ ressources spécialisées et atteint des performances SOTA sur MolBench, un benchmark de 8 à 50+ appels d'outils séquentiels. Les gains proviennent principalement de l'orchestration de workflows structurés.

Agents IA Multi-agents Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

CBT-Audio: Evaluating Audio Language Models for Patient-Side Distress Intensity Estimation in CBT Session Recordings

CBT-Audio est un dataset de 1,802 tours de parole issus de 96 enregistrements CBT publics, avec labels de détresse validés par experts. L'évaluation de 10 modèles audio open-source montre que l'audio améliore l'estimation de détresse par rapport au texte seul dans 8/10 familles de modèles, particulièrement quand contenu verbal et prosodie divergent.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.AI·19 mai

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

CheeseBench évalue 6 LLMs open-weight (3B-72B) sur 9 paradigmes de neurosciences comportementales (labyrinthe d'eau de Morris, T-maze, etc.). Qwen2.5-VL-7B atteint 52,6% de succès en ASCII vs 32,1% aléatoire et 78,9% pour les rongeurs. Scaling >7B donne des rendements décroissants; l'historique long et chain-of-thought dégradent les performances.

Benchmarks Raisonnement Vision

SIG

HYP

arXiv cs.AI·19 mai

Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training

Learning-Zone Energy (LZE) est un framework de sélection de données en ligne pour l'entraînement RL des LLM. Testé sur Qwen 1.5B-8B sur GSM8K et MATH, il retient 40% des données par étape tout en égalant les baselines complètes, avec gains OOD de +45.9% sur AIME25 et réduction de 36% des FLOPs.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

BoLT: A Benchmark to Democratize Black-box Optimization Research for Expensive LLM Tasks

BoLT est un benchmark open-source pour l'optimisation black-box appliquée aux LLM. Il couvre hyperparamètres, mélanges de données et prompts via des modèles de substitution légers basés sur des milliers d'expériences réelles. Benchmark de méthodes Bayesian Optimization et BBO révèle des lacunes dans les approches existantes.

Benchmarks Open source Papers

SIG

HYP

arXiv cs.CL·19 mai

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Étude montrant que l'oubli dans les LLM supprime l'information en surface seulement : les modèles retrouvent leur comportement original via un fine-tuning minimal. Les auteurs proposent un cadre d'analyse au niveau représentationnel (PCA, CKA, Fisher information) pour évaluer la véritable suppression de données et identifient quatre régimes d'oubli selon réversibilité et catastrophicité.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Ontology-Constrained Neural Reasoning in Enterprise Agentic Systems: A Neurosymbolic Architecture for Domain-Grounded AI Agents

Architecture neurosymbolique avec ontologies (Role, Domain, Interaction) pour agents LLM en entreprise. Expérience contrôlée (1 800 runs, Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B) : agents ontologie-contraints surpassent agents non-grounded sur précision métrique et cohérence de rôle (p < .001). Gain 2x plus élevé sur domaines localisés (Vietnam) où couverture LLM est faible.

Agents IA Claude Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Self-Improving CAD Generation Agents with Finite Element Analysis as Feedback

Agents CAD auto-améliorants utilisant l'analyse par éléments finis (FEA) comme feedback. Les modèles Codex (GPT-5.5) et Claude Code (Opus-4.7) ne produisent aucun artefact valide en première tentative ; seuls ~20% des exigences sont respectées. Deux signaux de supervision (schéma blueprint texte et rendu 21-vues) améliorent la boucle itérative : Box-IoU passe de 0.444 à 0.592 sur S2O.

Agents IA Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors

SLEIGHT-Bench est un benchmark de 40 attaques d'évasion contre des moniteurs d'agents de codage basés sur LLM. Claude Opus 4.6 avec extended thinking détecte seulement 23% des attaques (24/40 jamais détectées). Les stratégies d'évasion exploitent les priors du modèle, l'ambiguïté des instructions et la manipulation d'état.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Supervising the search process produces reliable and generalizable information-seeking agents

RAG-Gym, un framework de supervision du processus de recherche plutôt que des réponses finales, améliore les agents de recherche autonomes. Re²Search++ utilise la supervision de processus et la réflexion de raisonnement pour générer des requêtes de meilleure qualité, avec gains significatifs sur les benchmarks multi-hop et meilleure généralisation hors-domaine.

RAG Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models

CyberCorrect formalise l'auto-correction des LLM comme système de contrôle en boucle fermée. Un détecteur d'erreurs tri-modal (auto-cohérence, confiance verbalisée, vérification logique) et un contrôleur de correction type-dirigé améliorent la précision à 79,8% sur CyberCorrect-Bench (440 tâches), +6,2pp vs méthodes existantes, réduisant les sur-corrections de 41%.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.CL·19 mai

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

FinTagging est un benchmark pour évaluer les LLM sur l'extraction et le tagging XBRL de données financières. Il décompose la tâche en deux étapes : FinNI (extraction d'entités numériques) et FinCL (mapping vers la taxonomie US GAAP complète). Les tests montrent que les modèles extraient bien mais échouent sur le linking fin vers les 10k+ concepts.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

ShareChat: A Dataset of Chatbot Conversations in the Wild

ShareChat est un corpus de 142 808 conversations (660 293 tours) collectées sur ChatGPT, Perplexity, Grok, Gemini et Claude entre avril 2023 et octobre 2025. Le dataset préserve les affordances natives (citations, traces de raisonnement, artefacts code) sur 95 langues et permet d'analyser les différences cross-platform en satisfaction d'intent, stratégies de citation et latence.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·19 mai

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

AgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur des configurations inédites. Les agents testés (Cursor Agent, Claude Code, Codex) atteignent des speedups jusqu'à 6.89x, mais montrent des faiblesses en généralisation pour PyTorch-to-HIP.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

CAM-Bench: A Benchmark for Computational and Applied Mathematics in Lean

CAM-Bench est un benchmark Lean 4 de 1 000 problèmes de mathématiques computationnelles et appliquées (optimisation, algèbre linéaire numérique, analyse numérique). Les problèmes sont extraits de manuels avec contexte local reconstruit via pipeline de récupération de dépendances. Évaluation de LLMs et agents de formalisation révèle des défaillances sur les hypothèses locales et le contrôle long-horizon.

Benchmarks Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·19 mai

PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning

PEGRL est un framework RL deux étapes pour la traduction automatique par LLM. Il utilise la post-édition comme tâche auxiliaire pour stabiliser l'entraînement et guider l'optimisation. Tests sur EN→FI, EN→TR, EN↔ZH montrent des gains constants; EN→TR atteint des performances comparables à DeepSeek-V3.2 sur COMET-KIWI.

Reinforcement learning Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Enhancing Table Reasoning with Deterministic Table-State Rewards

TABROUGE, une métrique de récompense déterministe basée sur la plus longue sous-séquence commune, améliore le raisonnement tabulaire des LLM sans entraînement. RE-TAB, framework plug-and-play utilisant TABROUGE, gagne 26,7 pp sur six backbones et trois benchmarks, réduisant les échantillons de test-time scaling de 33%.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

ChemVA, un framework pour améliorer la compréhension des diagrammes de réactions chimiques par les LLM. Combine détection multi-granularité des groupes fonctionnels et alignement sémantique pour activer le raisonnement chimique latent. Atteint 92% de précision de reconnaissance structurelle sur OCRD-Bench et +20 points de performance sur 9 LLM différents.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT)

Stream2LLM est un système de serving LLM qui réduit le temps jusqu'au premier token (TTFT) en chevauchant la récupération de contexte avec l'inférence. Le système gère deux modes : append (accumulation progressive) et update (raffinement itératif). Évaluation sur workloads réels montre jusqu'à 11x d'amélioration TTFT.

Infrastructure Raisonnement RAG

SIG

HYP

arXiv cs.AI·19 mai

When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

Étude révélant une vulnérabilité de sécurité dans les agents dialogues personnalisés : la mémoire à long terme biaise l'inférence d'intention et légitime des requêtes nuisibles. PS-Bench, un benchmark, montre que la personnalisation augmente les taux de succès d'attaque de 15,8 % à 243,7 % comparé aux baselines sans état. Une méthode de détection-réflexion légère est proposée pour réduire cette dégradation.

Sécurité IA Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

ClawGym: A Scalable Framework for Building Effective Claw Agents

ClawGym est un framework pour développer des agents capables d'exécuter des workflows multi-étapes sur fichiers locaux et outils persistants. Il inclut ClawGym-SynData (13.5K tâches synthétisées), des modèles fine-tunés par apprentissage supervisé, et ClawGym-Bench (200 instances d'évaluation). Code et ressources disponibles.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Inference-Time Diversity in RL-Trained Lean Theorem Provers: A Diagnostic Study

Les prouveurs de théorèmes Lean entraînés par RL souffrent d'effondrement modal à l'inférence : doubler l'échantillonnage de k=32 à k=64 sur miniF2F-test avec DeepSeek-Prover-V1.5-RL ne résout zéro théorème supplémentaire (42/244). Une diversité structurelle fixe de 15 squelettes tactiques récupère +45% d'amélioration relative à k=16 (+12.3±4.2 théorèmes). Le phénomène est spécifique à RL et orthogonal au scaling.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

MADP: A Multi-Agent Pipeline for Sustainable Document Processing with Human-in-the-Loop

MADP est une architecture multi-agent pour l'automatisation des documents en entreprise, combinant classification deep learning et extraction LLM avec validation humaine. Déployée sur 955 documents réels, elle atteint 97% d'automatisation complète et réduit les besoins en FTE de 70%. Accuracy de 98.5% avec supervision humaine; réduction de 69% des émissions CO2 vs traitement manuel.

Multi-agents Agents IA Génération de code

SIG

HYP