Page 7 sur 192

ToutHaut signalRécent

7679 articles

ASPI: Seeking Ambiguity Clarification Amplifies Prompt Injection Vulnerability in LLM Agents

ASPI est un benchmark de 728 scénarios tâche-attaque mesurant comment la clarification augmente la vulnérabilité aux injections de prompt. Les tests sur 10 LLMs frontière montrent que le taux de succès d'attaque monte de 1,8% à 34,0% pour o3 et de 2,2% à 35,7% pour Gemini-3-Flash en mode clarification. Code et données disponibles.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

OProver: A Unified Framework for Agentic Formal Theorem Proving

OProver est un framework unifié pour la preuve formelle de théorèmes en Lean 4 utilisant des agents. Le système révise itérativement les tentatives échouées via des preuves récupérées et du feedback du compilateur. Entraîné par préentraînement continu et post-entraînement itératif, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

ContractBench: Can LLM Agents Preserve Observation Contracts?

ContractBench évalue la capacité des agents LLM à préserver les contrats d'observation (artefacts temporellement valides et intègres au niveau des octets) lors d'appels API. Sur 38 modèles testés, aucun ne dépasse 80% : Claude-Opus-4.6 atteint 77,8%. Les résultats révèlent des défaillances d'intégrité et de validité non corrélées à la taille du modèle, et une régression non-monotone dans la famille GPT-5.

Agents IA Benchmarks Claude

SIG

HYP

arXiv cs.AI·19 mai

Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation

Étude unifiée de la distillation de LLM montrant que SFT, DAgger, offline RL et OPD découplent deux axes orthogonaux : source de préfixe et direction KL au niveau token. Les auteurs proposent KL mixing et curriculum de longueur avec gate entropie, améliorant Pass@k de 5.8 points et réduisant la longueur moyenne de 3x sur le raisonnement mathématique.

Fine-tuning Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

CHI-Bench évalue la capacité des agents IA à automatiser des workflows healthcare complexes (autorisation préalable, gestion d'utilisation, gestion des soins) sur 87 outils MCP et 20 applications. Le meilleur agent ne résout que 28% des tâches; aucun n'atteint 20% en mode strict. Performance chute à 3,8% en session unique.

Agents IA MCP Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

How Do Electrocardiogram Models Scale?

Étude systématique des lois de scaling pour modèles ECG : 120 modèles (20K-200M paramètres) pré-entraînés sur CODE (2.3M records). Les modèles SSL surpassent SL en généralisation hors-distribution ; ResNets 1.3-2.5× plus efficaces en paramètres que Transformers ; SSL 16× plus efficace en données. L'architecture et le paradigme importent plus que la taille brute.

Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

MM-ToolBench est un benchmark pour agents omni-modaux utilisant des outils en workflows réels. 100 tâches exécutables (service client, création intelligente), 27 serveurs MCP, 324 outils. Vérification multimodale en boucle fermée : les agents exécutent, inspectent et auto-corrigent. Claude Opus 4.6 atteint 32% de succès vs 94% humain.

Agents IA MCP Benchmarks

SIG

HYP

arXiv cs.LG·19 mai

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un cadre de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une petite version du modèle (proxy) évalue l'importance du cache KV de manière asynchrone, via HybridAxialMapper et Multi-Granularity Hybrid Loss. Sur Llama-3.1, Qwen-2.5 et Qwen-3, récupère 98,7% de la précision de KVZip avec speedup jusqu'à 3,21× en prefilling (Llama-3.1-8B, dual-GPU) et contextes jusqu'à 170k tokens.

Llama Qwen Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure

Étude sur les systèmes multi-agents : des attaques par « détournement sémantique » exploitent la confiance des agents. Paradoxe identifié : augmenter la capacité des Workers élève le taux de succès d'attaque de 18,4% à 63,9%. L'analyse de médiation révèle que la « certitude linguistique » des agents forts les rend vulnérables. Solution proposée : vérification par ensemble hétérogène réduisant le taux d'attaque à 2%.

Multi-agents Agents IA Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Chercheurs localisent des « cellules d'entité » dans les neurones MLP de modèles de langage (Qwen2.5-7B, etc.). Ces neurones activés de façon sélective encodent des faits spécifiques à une entité. Suppression d'une cellule efface le rappel pour cette entité seule ; activation suffit à récupérer la connaissance même sans contexte. Les cellules restent stables sous alias, acronymes et formes multilingues.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Tongyi DeepResearch Technical Report

Tongyi DeepResearch est un modèle LLM agentique de 30,5 milliards de paramètres (3,3 milliards activés par token) conçu pour les tâches de recherche longue durée. Entraîné via mid-training et post-training agentiques avec synthèse de données automatique, il atteint l'état de l'art sur 7 benchmarks incluant Humanity's Last Exam et BrowseComp. Le modèle et framework sont open-sourcés.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

SEDD: Scalable and Efficient Dataset Deduplication with GPUs

SEDD est un framework GPU pour la déduplication de datasets utilisant MinHash LSH. Il surpasse l'outil CPU de SlimPajama de 158× et le GPU de NVIDIA NeMo Curator de 7.8× sur 30M documents. Génération de signatures MinHash 375× plus rapide. Déduplication de 1.2T tokens en 3h sur cluster 32-GPU V100.

Benchmarks Infrastructure Open source

SIG

HYP

arXiv cs.CL·19 mai

MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair

MemRepair est un framework d'agent augmenté par mémoire pour la réparation de vulnérabilités au niveau du dépôt. Il combine trois couches mémoire (History-Fix, Security-Pattern, Refinement-Trajectory) avec une boucle de raffinement itérative. Évalué sur SEC-Bench, PatchEval et Multi-SWE-bench, MemRepair atteint 58.0%, 58.2% et 30.58% de taux de résolution, surpassant OpenHands, SWE-agent et InfCode-C++.

Agents IA Génération de code Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency

Étude de 38 modèles sur 8 900 références académiques : la qualité du rappel factuel suit une sigmoïde combinant la taille du modèle et la fréquence du sujet dans les données d'entraînement. Ces deux variables expliquent 60-94% de la variance. Le modèle propose que le rappel est limité par un rapport signal/bruit.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

OProver: A Unified Framework for Agentic Formal Theorem Proving

OProver est un framework unifié pour la preuve formelle agentique en Lean 4. Le modèle 32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench. L'entraînement combine pretraining, SFT sur trajectoires de réparation, et RL sur cas difficiles. OProofs contient 1,77M énoncés Lean et 6,86M preuves vérifiées.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·19 mai

The Point of No Return: Counterfactual Localization of Deceptive Commitment in Language-Model Reasoning

Étude sur le moment où un modèle de langage s'engage dans la tromperie. Via localisation contrefactuelle sur 5 environnements (bluff, labyrinthes, conseils financiers, vente auto, négociation), les auteurs analysent 1,46M phrases et 91,5B tokens. Les indices lexicaux ne généralisent pas, mais les features d'attention se transfèrent entre domaines.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·19 mai

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

CHI-Bench évalue l'automatisation d'workflows healthcare complexes via agents IA. Le benchmark couvre 3 domaines (autorisation préalable, gestion d'utilisation, gestion des soins) avec 87 outils MCP et 1 290+ documents de règles. Meilleur résultat : 28% de tâches résolues, 3,8% en session unique.

Agents IA Multi-agents MCP

SIG

HYP

arXiv cs.AI·19 mai

SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition

SurgicalMamba, modèle basé sur Mamba2, reconnaît les phases chirurgicales en temps réel avec coût O(d) par frame. Trois composants adressent les défis spécifiques : dual-path SSD séparant régimes long/court-terme, stepping modulé en intensité adaptant le taux effectif, et state regramming pour mélange cross-canal. Résultats SOTA : 94.6%/82.7% sur Cholec80, 89.5%/68.9% sur AutoLaparo, 238.74 fps GPU.

Raisonnement Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

WriteSAE: Sparse Autoencoders for Recurrent State

WriteSAE introduit le premier autoencoder creux décomposant et éditant les écritures de cache matriciel dans les modèles récurrents Gated DeltaNet, Mamba-2 et RWKV-7. Les atomes factorisés exposent une forme fermée pour les décalages logit par token, avec 92.4% de substitutions réussies sur 4,851 activations testées à Qwen3.5-0.8B et 88.1% sur Mamba-2-370M.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Chercheurs localisent des « cellules d'entité » — neurones MLP sélectifs qui encodent des faits spécifiques — dans sept modèles de langage. Sur Qwen2.5-7B, supprimer une cellule efface le rappel pour son entité tandis qu'activer une seule cellule suffit à récupérer la connaissance, même sans contexte. Ces cellules restent stables sous alias, acronymes et formes multilingues.

Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism

OxyGen propose une gestion unifiée du cache KV pour l'inférence de modèles Vision-Langage-Action (VLA) sous parallélisme multi-tâches. Implémenté sur π₀.₅, le système atteint 3.7× d'accélération sur RTX 4090 et Jetson AGX Thor, livrant 200+ tokens/s et 70 Hz simultanément sans dégradation de qualité.

Vision Agents IA Robotique

SIG

HYP

arXiv cs.CL·19 mai

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Soohak est un benchmark de 439 problèmes mathématiques de niveau recherche, créé par 64 mathématiciens. Gemini-3-Pro atteint 30,4%, GPT-5 26,4%, Claude-Opus-4.5 10,4%. Le benchmark introduit un sous-ensemble « refusal » évaluant la capacité à reconnaître les problèmes mal posés : aucun modèle ne dépasse 50%.

Benchmarks Raisonnement GPT

SIG

HYP

arXiv cs.AI·19 mai

Reverse-Engineering Model Editing on Language Models

Des chercheurs révèlent une vulnérabilité critique des méthodes de model editing : les mises à jour de paramètres permettent de récupérer les données éditées via une attaque KSTER exploitant la structure low-rank. Une défense par « subspace camouflage » est proposée pour obfusquer les empreintes sans compromettre l'utilité.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·19 mai

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 est une famille de modèles de langage de 3 milliards de paramètres entraînés sur des données synthétiques pour l'attribution d'évidences biomédicales et la vérification de faits. Elle surpasse ses modèles de base de +27% à +71% sur cinq benchmarks et rivalise avec GPT-5 tout en étant bien plus efficace. L'étude quantifie les hallucinations dans les réponses générées par LLM selon les instructions de citation.

Benchmarks Fine-tuning Évaluations

SIG

HYP

Reddit r/LocalLLaMA·18 mai

llama.cpp MTP support landed - Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig

Le support MTP (speculative decoding) a été intégré à llama.cpp (PR #22673, 16 mai). Tests sur Qwen 3.6 27B : gains de 1.81× à 2.44× sur Strix Halo (ROCm), 1.54× à 2.17× sur RTX 3090. MoE 35B-A3B moins bénéficiaire (1.24×-1.40×). Activation : --spec-type draft-mtp --spec-draft-n-max N.

Llama Génération de code Benchmarks

SIG

HYP

OpenAI Blog·30 sept.

Sora 2 System Card

OpenAI déploie Sora 2, modèle vidéo-audio générant des vidéos avec physique plus précise, réalisme amélioré, audio synchronisé et meilleure contrôlabilité stylistique. Successeur direct de Sora avec capacités étendues sur les défis historiques des modèles vidéo.

OpenAI Génération de vidéos Génération d'images

SIG

HYP

OpenAI Blog·28 août

Introducing gpt-realtime and Realtime API updates

OpenAI lance gpt-realtime, un modèle speech-to-speech avancé, avec nouvelles capacités API : support serveur MCP, entrée image, et appels SIP. Mise à jour majeure de la Realtime API pour intégrations vocales et multimodales.

OpenAI GPT Voix

SIG

HYP

OpenAI Blog·16 mai

Introducing Codex

OpenAI présente Codex, un modèle basé sur GPT-3 spécialisé dans la génération de code. Entraîné sur du code public, il comprend plus de 12 langages de programmation et peut traduire du langage naturel en code exécutable. Disponible en accès limité via une API.

OpenAI Génération de code GPT

SIG

HYP

OpenAI Blog·1 oct.

Introducing vision to the fine-tuning API

OpenAI ajoute la vision au fine-tuning API. Les développeurs peuvent désormais affiner GPT-4o avec images et texte pour améliorer les capacités visuelles du modèle.

GPT OpenAI Fine-tuning

SIG

HYP

OpenAI Blog·31 mai

Improving mathematical reasoning with process supervision

OpenAI entraîne un modèle avec supervision de processus (récompenser chaque étape correcte) plutôt que supervision de résultat (récompenser la réponse finale). Cette approche améliore les performances en résolution mathématique et renforce l'alignement en produisant des chaînes de raisonnement validées par les humains.

OpenAI Raisonnement Reinforcement learning

SIG

HYP

OpenAI Blog·31 oct.

Reinforcement learning with prediction-based rewards

OpenAI présente Random Network Distillation (RND), une méthode d'apprentissage par renforcement basée sur la prédiction qui encourage l'exploration par curiosité. RND dépasse pour la première fois la performance humaine moyenne sur Montezuma's Revenge.

OpenAI Reinforcement learning Raisonnement

SIG

HYP

OpenAI Blog·4 juil.

Learning Montezuma’s Revenge from a single demonstration

OpenAI entraîne un agent à scorer 74 500 sur Montezuma's Revenge à partir d'une seule démonstration humaine, meilleur résultat publié. L'algorithme rejoue des séquences depuis des états clés de la démo et optimise le score via PPO.

Reinforcement learning Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

MCompassRAG améliore les systèmes RAG en utilisant des métadonnées de sujets comme guide sémantique pour la récupération de paragraphes. La méthode enrichit les représentations de chunks avec des signaux au niveau des sujets dans le même espace d'embedding et entraîne un retrieveur léger par distillation LLM. Sur six benchmarks, elle gagne 8,24% en efficacité informationnelle avec 5× moins de latence.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Output Vector Editing for Memorization Mitigation in Large Language Models

Méthode de suppression de mémorisation dans les LLM par édition des vecteurs de sortie des neurones MLP. Testée sur 4 modèles (360M-7B paramètres), atteint 87,9% de suppression sur OLMo-7B avec 6831 séquences mémorisées. Approche complémentaire aux méthodes d'ablation neuronale existantes.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification

Framework local de dé-identification pour dialogues éducatifs. Cascade à deux étages : proposeur union (encodeurs légers + règles déterministes) génère candidats PII, puis reviewer binaire Redact/Keep utilise contexte et rôle du locuteur. Atteint 0.958 F1 macro sur transcriptions tutoriel math, surpasse LLM commercial (0.706) et baseline locale (0.767), s'exécute sur laptop unique.

RAG Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

VISUALSKILL: Multimodal Skills for Computer-Use Agents

VISUALSKILL propose des compétences multimodales hiérarchiques pour les agents d'interaction informatique. Combinant documentation et exploration UI en direct, le système améliore les performances de Claude Opus 4.6 de +15.3 points sur CUA-World et OSExpert-Eval (0.456 vs 0.303 baseline). Les figures visuelles surpassent les descriptions textuelles (+8.3 points).

Claude Agents IA MCP

SIG

HYP

arXiv cs.CL·18 juin

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench évalue 13 LLMs sur le droit taïwanais avec 16 000+ questions à choix multiples, 117 essais ouverts et 14 000+ cas de prédiction judiciaire. Les meilleurs modèles dépassent le seuil de qualification des avocats (11%) mais échouent pour juges/procureurs (1-2%). Les modèles peinent à citer les articles légaux exacts.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Dual Dimensionality for Local and Global Attention

Les chercheurs proposent Distance-Adaptive Representation (DAR) : réduire la dimensionnalité des clés/valeurs au-delà d'une fenêtre locale dans les Transformers décodeur-seul. Les tokens proches nécessitent des représentations complètes pour prédire le token suivant, tandis que les tokens distants peuvent utiliser 1/4 de la dimensionnalité originale sans dégradation. Testé sur modèles 70M-410M et fine-tuning 1B.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

RedactionBench

RedactionBench est un benchmark de 200 documents annotés manuellement couvrant 11 domaines pour évaluer la redaction d'informations personnelles (PII) en contexte. Introduit avec R-Score, une métrique au niveau caractère, il montre que 35 modèles (NER, SLM, frontier models) échouent sur les redactions contextuelles : consensus humain à 89,4% pour redactions obligatoires, 47,7% pour redactions contextuelles.

Benchmarks Sécurité IA Évaluations

SIG

HYP