Page 12 sur 137

ToutHaut signalRécent
5473 articles
arXiv cs.AI·

From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

Étude systématique du cycle de vie complet des skills générés par modèles IA : extraction, consommation et transfert. Framework d'évaluation couvrant 5 domaines agentic. Résultats : skills bénéfiques en moyenne mais transfert négatif non-trivial ; performance d'extraction/consommation indépendante de la taille du modèle. Introduction d'une meta-skill pour améliorer la qualité.

Agents IAMulti-agentsReinforcement learning
SIG
78
HYP
15
arXiv cs.CL·

Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion

QASC (Query-Adaptive Semantic Chunking) améliore la segmentation de documents pour RAG en intégrant les requêtes utilisateur au moment du chunking. Via scoring de similarité cosinus, expansion contextuelle et agrégation de scores, QASC atteint F1=0.85, soit +18-27% vs chunking fixe et +8-12% vs méthodes sémantiques/agentic sur 100 documents techniques et 200 requêtes.

RAGBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs

Étude de red-teaming multilingue sur quatre MLLMs (Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni) révélant que la vulnérabilité aux jailbreaks varie selon la langue. Les attaques par rôle-play sont moins efficaces en espagnol mexicain, tandis que les attaques visuelles le deviennent plus. Les classements de sécurité ne se conservent pas entre langues.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

SciAtlas est un graphe de connaissances académique à grande échelle intégrant 43M articles de 26 disciplines, 157M entités et 3B triplets. Il propose un algorithme de récupération neuro-symbolique avec rappel tri-chemin et réclassement graphique pour améliorer la recherche sémantique et réduire les coûts d'inférence des agents IA en recherche scientifique automatisée.

Agents IARAGBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

RAS: Reflection-Augmented Scaling with In-Context Learning for Executable Cypher Query Generation

RAS (Reflection-Augmented Scaling) améliore la génération de requêtes Cypher en exploitant les messages d'erreur du système via apprentissage en contexte. Sur trois datasets Neo4j et cinq modèles spécialisés en code, RAS réduit le taux d'erreur d'exécution de 41–50% (n=5), surpassant l'échantillonnage indépendant (32–38%).

Génération de codeRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

A Proactive Multi-Agent Dialogue Framework for Assessing Social Language Disorder Traits in Autism

TPA (Think, Plan, Ask) est un framework multi-agent qui guide les LLM à sélectionner proactivement des stratégies de questionnement pour évaluer les troubles du langage social (SLD) dans l'autisme. Testé sur 484 épisodes cliniques (ADOS-2), TPA atteint 82,1% de couverture des traits SLD vs 65,5% pour les cliniciens, avec une efficacité diagnostique supérieure (AUCC: 0,628 vs 0,458).

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
25
arXiv cs.LG·

PACE: Two-Timescale Self-Evolution for Small Language Model Agents

PACE est un framework d'auto-évolution pour agents basés sur petits modèles de langage (4B-14B paramètres). Il coordonne l'affinement de prompts avec des mises à jour de logique de contrôle via validation, sans accès à des modèles frontière. Sur 12 combinaisons backbone-benchmark, PACE améliore les agents SLM vanille de +9.2% et les baselines d'évolution mono-mode de +5.4%.

Agents IAPrompt engineeringRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Learnability-Informed Fine-Tuning of Diffusion Language Models

Nouvelle méthode LIFT pour l'entraînement fin des modèles de langage par diffusion (DLMs). L'analyse montre que le SFT classique ignore la learnability des tokens selon le masquage. LIFT aligne l'apprentissage avec les étapes de diffusion : tokens faciles quand l'input est masqué, tokens difficiles avec plus de contexte. Gains jusqu'à 3x sur AIME'24/25 vs baselines SFT.

Fine-tuningRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

Fast-dDrive est un modèle VLA (Vision-Language-Action) basé sur la diffusion par blocs pour la conduite autonome. Il combine raffinement bidirectionnel au sein d'unités sémantiques avec un ordre causal strict, gère les sorties JSON structurées et atteint 12× d'accélération de débit avec SGLang. Sur nuScenes, erreur L2 réduite à 0,32m (amélioration 22%), SOTA sur WOD-E2E.

VisionGénération de codeRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection

MemAudit est un framework d'audit post-hoc pour détecter les mémoires empoisonnées dans les agents LLM. Il combine un score d'influence contrefactuelle et un graphe de cohérence mémoire pour identifier les enregistrements malveillants injectés via interactions normales. Évalué contre l'attaque MINJA, il réduit le taux de succès de 70% à 0% en QA et de 83,3% à 0% en reasoning.

Agents IASécurité IARAG
SIG
78
HYP
25
arXiv cs.LG·

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Sur des modèles 1-3B, le CoT en arithmétique repose sur un raccourci positionnel : le modèle copie simplement le nombre en dernière position avant le délimiteur de réponse, indépendamment du raisonnement intermédiaire. Cette stratégie explique 54-92 pp de précision sur GSM8K. Remplacer ce nombre par une valeur incorrecte effondre la performance même avec des étapes correctes.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Étude montrant que le raisonnement explicite (CoT) n'est bénéfique que sur certaines tâches. Les auteurs proposent EDRM, un framework sans entraînement qui utilise la dynamique d'entropie en début de génération pour router adaptivement vers CoT ou inférence directe. Sur 15 benchmarks et 4 LLMs, EDRM réduit les tokens de 41–55% tout en améliorant la précision jusqu'à 4,7%.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

Étude de 16 modèles de langage (1.5B–72B paramètres) révélant que leur convergence représentationnelle ne s'étend pas au raisonnement. Les modèles s'alignent davantage sur les problèmes qu'ils échouent collectivement (CKA=0.897) que sur ceux résolus (CKA=0.830). Les représentations post-décision divergent fortement (CKA=0.274), et l'information partagée exerce une influence causale minimale (1.5–5.5% flip rate).

PapersRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks

Audit de 11 benchmarks de raisonnement long-contexte : aucun ne contrôle la position de la tâche cible, le contenu de remplissage et la longueur du contexte. Évaluation de 9 LLMs avec Context Rot Evaluation (CRE) révèle des chutes drastiques de précision quand la tâche passe de fin à milieu (ex: Mimo-v2-Flash -88pp à 64K). Les modèles plus récents montrent moins de vulnérabilité positionnelle.

BenchmarksRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

MaR (Metacognition-as-Reward) est un framework RL qui améliore le raisonnement des LLM via deux dimensions : la connaissance métacognitive (identification d'infos pertinentes) et la régulation métacognitive (planification du processus). Testé sur 22 benchmarks, Qwen3.5-9B + MaR gagne jusqu'à 7.7% vs modèle de base et 11.0% vs DAPO vanilla, surpassant GPT-OSS-120B en moyenne.

Reinforcement learningRaisonnementQwen
SIG
78
HYP
25
arXiv cs.CL·

A Reproducible Universal Dependencies-Style Pipeline for Katharevousa Greek Parliamentary Text

Pipeline reproductible pour construire une ressource de parsing Universal Dependencies pour le grec Katharevousa (textes parlementaires grecs post-junte). Dataset de 1.697 phrases annotées, comparaison de 6 architectures (spaCy, Stanza, XLM-R, mBERT, etc.). Meilleur modèle (XLM-R) : 0.5162 LAS vs 0.4183 pour baseline. Code et annotations publiés en open-access.

PapersBenchmarksOpen source
SIG
78
HYP
15
arXiv cs.CL·

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Étude de 20 modèles LLM commerciaux et open-source sur 182 paires religieuses. Les modèles montrent des asymétries persistantes : ils favorisent conversions vers catholicisme, bahaïsme, sikhisme et découragent conversions vers athéisme, agnosticisme, Témoins de Jéhovah. Grok 4.20 présente les asymétries les plus fortes. Patterns reproductibles indépendamment de la formulation.

LlamaGPTAlignement
SIG
78
HYP
25
The Decoder·

Researchers let Claude Code discover AI scaling algorithms that humans probably wouldn't have designed

Des chercheurs de UMD, Google et Meta utilisent AutoTTS pour laisser Claude Code découvrir indépendamment des algorithmes de contrôle pour le raisonnement IA. L'algorithme trouvé réduit la consommation de calcul de 70% comparé à la self-consistency standard tout en conservant la précision. La recherche a coûté 40$ et pris 160 minutes.

Claude CodeAgents IARaisonnement
SIG
78
HYP
35
Reddit r/LocalLLaMA·

Benchmarked Needle 26M vs Qwen3-0.6B on CPU function calling, 50 queries across 5 difficulty tiers. The 23x smaller model wins on accuracy and is 4.4x faster.

Benchmark CPU de Needle (26M) vs Qwen3-0.6B sur function calling : 50 requêtes, 5 niveaux de difficulté. Needle gagne en précision (72% vs 56% tool_match) et latence (10.9s vs 47.9s). Needle échoue sur la sélection d'outil, Qwen3 sur l'émission de tags. Qwen3 domine sur requêtes multilingues (Hindi, français).

QwenBenchmarksGénération de code
SIG
78
HYP
15
Reddit r/LocalLLaMA·

Apex-Testing: real-world, real repos, agentic coding benchmark (Update)

Apex-Testing, benchmark de codage agentic basé sur 65-70 repos GitHub réels, a été mis à jour à 95% avec les modèles récents. 70 tâches réparties en 8 catégories testent les capacités d'agents IA sur du code production. Classement ELO, métriques de coût/temps et comparaisons disponibles. Qwen 3.7 Max, Deepseek v4 et autres modèles en cours de complétion.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
25