Page 5 sur 137

ToutHaut signalRécent
5460 articles
arXiv cs.CL·

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Chercheurs localisent des « cellules d'entité » dans les neurones MLP de modèles de langage (Qwen2.5-7B, etc.). Ces neurones activés de façon sélective encodent des faits spécifiques à une entité. Suppression d'une cellule efface le rappel pour cette entité seule ; activation suffit à récupérer la connaissance même sans contexte. Les cellules restent stables sous alias, acronymes et formes multilingues.

RaisonnementPapersBenchmarks
SIG
82
HYP
15
arXiv cs.AI·

The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure

Étude sur les systèmes multi-agents : des attaques par « détournement sémantique » exploitent la confiance des agents. Paradoxe identifié : augmenter la capacité des Workers élève le taux de succès d'attaque de 18,4% à 63,9%. L'analyse de médiation révèle que la « certitude linguistique » des agents forts les rend vulnérables. Solution proposée : vérification par ensemble hétérogène réduisant le taux d'attaque à 2%.

Multi-agentsAgents IASécurité IA
SIG
82
HYP
15
arXiv cs.LG·

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un cadre de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une petite version du modèle (proxy) évalue l'importance du cache KV de manière asynchrone, via HybridAxialMapper et Multi-Granularity Hybrid Loss. Sur Llama-3.1, Qwen-2.5 et Qwen-3, récupère 98,7% de la précision de KVZip avec speedup jusqu'à 3,21× en prefilling (Llama-3.1-8B, dual-GPU) et contextes jusqu'à 170k tokens.

LlamaQwenRaisonnement
SIG
82
HYP
18
arXiv cs.AI·

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Chercheurs localisent des « cellules d'entité » — neurones MLP sélectifs qui encodent des faits spécifiques — dans sept modèles de langage. Sur Qwen2.5-7B, supprimer une cellule efface le rappel pour son entité tandis qu'activer une seule cellule suffit à récupérer la connaissance, même sans contexte. Ces cellules restent stables sous alias, acronymes et formes multilingues.

Benchmarks
SIG
82
HYP
15
arXiv cs.AI·

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.

Reinforcement learningRaisonnementBenchmarks
SIG
82
HYP
18
arXiv cs.AI·

Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation

Étude unifiée de la distillation de LLM montrant que SFT, DAgger, offline RL et OPD découplent deux axes orthogonaux : source de préfixe et direction KL au niveau token. Les auteurs proposent KL mixing et curriculum de longueur avec gate entropie, améliorant Pass@k de 5.8 points et réduisant la longueur moyenne de 3x sur le raisonnement mathématique.

Fine-tuningReinforcement learningRaisonnement
SIG
82
HYP
15
arXiv cs.AI·

ContractBench: Can LLM Agents Preserve Observation Contracts?

ContractBench évalue la capacité des agents LLM à préserver les contrats d'observation (artefacts temporellement valides et intègres au niveau des octets) lors d'appels API. Sur 38 modèles testés, aucun ne dépasse 80% : Claude-Opus-4.6 atteint 77,8%. Les résultats révèlent des défaillances d'intégrité et de validité non corrélées à la taille du modèle, et une régression non-monotone dans la famille GPT-5.

Agents IABenchmarksClaude
SIG
82
HYP
15
arXiv cs.AI·

OProver: A Unified Framework for Agentic Formal Theorem Proving

OProver est un framework unifié pour la preuve formelle de théorèmes en Lean 4 utilisant des agents. Le système révise itérativement les tentatives échouées via des preuves récupérées et du feedback du compilateur. Entraîné par préentraînement continu et post-entraînement itératif, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench.

Agents IARaisonnementReinforcement learning
SIG
82
HYP
15
arXiv cs.AI·

FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics

FML-Bench est un benchmark de 18 tâches ML sur 10 domaines évaluant 6 agents de recherche IA. Résultats clés : la complexité stratégique seule ne garantit pas la performance (greedy hill-climber rivalise avec tree-search) ; l'efficacité dépend de la structure d'opportunités d'amélioration ; un agent adaptatif détectant la stagnation surpasse les autres. 12 métriques comportementales au niveau processus.

Agents IABenchmarksRaisonnement
SIG
82
HYP
15
arXiv cs.AI·

MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair

MemRepair est un framework d'agent augmenté par mémoire pour la réparation de vulnérabilités au niveau du dépôt. Il combine trois couches mémoire (History-Fix, Security-Pattern, Refinement-Trajectory) avec une boucle de raffinement itérative. Évalué sur SEC-Bench, PatchEval et Multi-SWE-bench, MemRepair atteint 58.0%, 58.2% et 30.58% de taux de résolution, surpassant OpenHands, SWE-agent et InfCode-C++.

Agents IAGénération de codeSécurité IA
SIG
82
HYP
18
arXiv cs.CL·

Firefly: Illuminating Large-Scale Verified Tool-Call Data Generation from Real APIs

FireFly génère des données vérifiées pour l'entraînement d'agents tool-calling à partir de vrais serveurs MCP. Le pipeline inverse la synthèse standard : exploration d'APIs réelles via structures DAG, puis génération rétroactive de tâches à partir des résultats observés. 5 144 tâches vérifiées sur 240 serveurs et 993 outils. Un modèle 4B entraîné avec GRPO égale Claude Sonnet sur le test set.

Agents IAMCPGénération de code
SIG
82
HYP
18
arXiv cs.AI·

Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents

Étude à grande échelle de 64 380 exécutions SWE-bench couvrant 126 configurations d'agents (43 frameworks × LLMs). Les règles comportementales dérivées d'un seul framework ne se transfèrent pas : le même signal (ex. taux d'erreur) corrèle positivement avec la résolution dans 47 configs et négativement dans 48. L'identité du framework explique 64% de la variance contre 10% pour la famille LLM.

Agents IABenchmarksGénération de code
SIG
82
HYP
15
arXiv cs.AI·

ContraFix: Agentic Vulnerability Repair via Differential Runtime Evidence and Skill Reuse

ContraFix est un framework agentic pour la réparation automatique de vulnérabilités qui combine des preuves d'exécution différentielles et la réutilisation de compétences. Sur SEC-Bench (C/C++) et PatchEval (Go, Python, JavaScript), il atteint 84,0% et 73,8% de résolution avec GPT-4-mini, surpassant les baselines tout en coûtant moins d'un tiers.

Agents IAGénération de codeRaisonnement
SIG
82
HYP
25
arXiv cs.AI·

SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

SaaSBench est le premier benchmark pour évaluer les agents IA dans l'ingénierie SaaS d'entreprise. Il contient 30 tâches complexes sur 6 domaines SaaS avec 8 langages, 6 bases de données et 13 frameworks. Les expériences révèlent que >95% des échecs surviennent avant la logique métier : les agents échouent à configurer et intégrer les systèmes multi-composants.

Agents IAGénération de codeBenchmarks
SIG
82
HYP
15
arXiv cs.AI·

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

OSCAR quantifie les caches KV en INT2 pour les LLM long-context en estimant hors-ligne les structures de covariance alignées avec l'attention. Testé sur Qwen3 (4B–32B) et GLM-4.7 (358B), la méthode réduit l'écart de précision à 1.42–3.78 points vs BF16, réduit la mémoire de 8x et améliore le débit de 7x. Kernel INT2 compatible vLLM/SGLang.

RaisonnementBenchmarksInfrastructure
SIG
82
HYP
15
arXiv cs.AI·

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B.

Reinforcement learningBenchmarksOpen source
SIG
82
HYP
25
arXiv cs.AI·

TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?

TeleCom-Bench est un benchmark de 22 678 échantillons évaluant 8 LLMs sur des tâches télécom réelles (reconnaissance d'intention, extraction d'entités, analyse de cause racine, génération de solutions). Les modèles atteignent 90% en tâches linguistiques mais s'effondrent à 30% en exécution procédurale, révélant un « Execution Wall » : les LLMs diagnostiquent bien mais échouent comme ingénieurs terrain.

BenchmarksRaisonnementAgents IA
SIG
82
HYP
25
arXiv cs.AI·

Prompts Don't Protect: Architectural Enforcement via MCP Proxy for LLM Tool Access Control

Les LLM utilisés comme agents autonomes sélectionnent des outils non autorisés même avec instructions explicites. Une étude sur Qwen 2.5 7B, Llama 3.1 8B et Claude Haiku 3.5 montre qu'un proxy MCP avec contrôle d'accès basé attributs (ABAC) réduit les invocations non autorisées à 0%, contre 11-18% pour les restrictions par prompt. L'application architecturale est nécessaire, pas le prompt engineering.

Agents IAMCPSécurité IA
SIG
82
HYP
15
arXiv cs.AI·

Can LLM Agents Be CFOs? Benchmarking Long-Horizon Resource Allocation in an Uncertain Enterprise Environment

EnterpriseArena, un simulateur CFO de 132 mois, évalue la capacité des agents LLM à allouer des ressources sur long terme dans l'incertitude. Tests sur 23 modèles et 4 frameworks : seulement 15,4% des essais survivent l'horizon complet. Les modèles plus grands ne surpassent pas fiablement les petits. Révèle un écart critique dans la gestion d'engagements contraignants sous observabilité partielle.

Agents IABenchmarksRaisonnement
SIG
82
HYP
18
arXiv cs.CL·

GIM: Evaluating models via tasks that integrate multiple cognitive domains

GIM est un benchmark de 820 problèmes originaux évaluant les LLM via l'intégration de multiples domaines cognitifs (satisfaction de contraintes, suivi d'état, vigilance épistémique) plutôt que la mémorisation ou le raisonnement abstrait pur. Calibrage IRT sur >200k paires prompt-réponse, 28 modèles, étude extensive du trade-off compute vs capacité sur 11 modèles et 35 configurations.

BenchmarksÉvaluationsRaisonnement
SIG
82
HYP
15
arXiv cs.AI·

Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy

Les modèles de langage en pipelines multi-agents basculent vers des réponses incorrectes sous désaccord simulé (yield). Contrairement à l'hypothèse courante, ce n'est pas l'RLHF qui en est responsable : les modèles de base non-alignés montrent le même pattern. L'activation patching localise la corruption dans une fenêtre mid-layer étroite. Un seul dissenseur argumentant correctement réduit le yield de 54-73 points.

Multi-agentsAlignementRaisonnement
SIG
82
HYP
15
arXiv cs.CL·

PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts

PARALLAX révèle que 4 des 6 benchmarks majeurs de détection d'hallucinations contiennent la réponse correcte dans le prompt, permettant à une baseline naïve (TxTemb) d'atteindre une détection quasi-parfaite sans accès aux états internes du modèle. Évaluation de 22 méthodes sur 12 modèles open-source : la plupart échouent en conditions contrôlées, sauf SAPLMA et DRIFT (probes supervisées sur états cachés supérieurs).

BenchmarksÉvaluationsSécurité IA
SIG
82
HYP
15
arXiv cs.CL·

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injecter des brouillons mathématiquement faux d'un petit modèle (Qwen2.5-Math-1.5B) mal appariés au problème courant dans le contexte GRPO d'un modèle plus fort (Mathstral-7B) surpasse le GRPO standard. Sur MATH-500, le variant mal apparié atteint 71,98% (meilleur résultat publié pour ce modèle), +1,62pp vs variant bien apparié, sans SFT ni modèles de récompense.

Reinforcement learningRaisonnementBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B. Code open-source disponible.

Reinforcement learningBenchmarksOpen source
SIG
82
HYP
25