Page 54 sur 146

ToutHaut signalRécent
5828 articles
arXiv cs.CL·

Bosses, Kings, and the Commons: Cooperation Under Power Asymmetry in LLM Societies

SovSim, un framework de simulation multi-agent, évalue comment 11 modèles LLM gèrent les ressources communes sous structures de pouvoir asymétriques. Résultat : l'introduction d'un agent avec pouvoir disproportionné (boss/roi) provoque une dégradation de 87,3% du taux de survie et des effondrements de coopération comparé aux paramètres symétriques.

Multi-agentsAgents IABenchmarks
SIG
72
HYP
25
arXiv cs.CL·

Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

Chercheurs proposent une « couche interprétative » (Behavioral Specification) pour personnaliser les décisions d'IA selon les préférences utilisateur. Testée sur 14 corpus autobiographiques, elle améliore la précision représentationnelle de 25× avec moins de contexte que le corpus brut, tout en réduisant l'hésitation du modèle. Efficace sur questions d'interprétation, moins sur questions factuelles.

AlignementRAGAgents IA
SIG
72
HYP
18
arXiv cs.CL·

GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models

GPF-LiveNews est un protocole d'évaluation en continu pour auditer comment les LLM encadrent les événements d'actualité pour différents publics. Testé sur 23 modèles et 12 cycles de monitoring, il mesure les variations sémantiques et de sentiment selon 42 labels d'identité. Les résultats montrent que les prompts Policy/Action produisent le plus fort mouvement sémantique.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.CL·

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Thoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.

RaisonnementReinforcement learningPrompt engineering
SIG
72
HYP
28
arXiv cs.CL·

Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning

Étude comparative de quatre algorithmes de syllabification du néerlandais (Brandt Corstius, Liang, Trogkanis-Elkan CRF, et un modèle deep learning). Le modèle deep learning combinant informations phonétiques et orthographiques atteint 99,65% de précision (+0,14% vs littérature). Les algorithmes data-driven surpassent l'approche basée sur des règles.

PapersBenchmarksGénération de code
SIG
72
HYP
15
arXiv cs.CL·

Transcribing Children's Speech: ASR Performance and Obtaining Reliable Orthographic Transcriptions

Étude comparative de 9 modèles ASR (Whisper, Parakeet, Wav2Vec2) sur la parole enfantine en néerlandais. Whisper-medium fine-tuné atteint 5,54% WER sur JASMIN et 70,37% sur DART. Une méthode de sélection au niveau des énoncés identifie 42% (JASMIN) et 18,1% (DART) des utterances comme correctement prononcées avec précision ≥98,3%, réduisant le besoin de vérification manuelle.

BenchmarksVoixÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

A Modular Architecture for Typologically Controlled Lexicon Generation

Framework modulaire pour générer des lexiques artificiels prononçables et typologiquement plausibles. Utilise PHOIBLE pour les inventaires phonémiques, trois grammaires phonologiques (déterministe, OT, MaxEnt), et une ontologie Swadesh-Leipzig-Jakarta. Évaluation sur perplexité n-grammes et divergence KL : les grammaires probabilistes surpassent les baselines sur 100-5000 formes.

PapersBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

Ensemble Score Filtering for Real-Data Energy Consumption Forecast Correction

Méthode de correction de prévisions de consommation énergétique combinant un modèle spatio-temporel préentraîné avec l'Ensemble Score Filter (EnSF). EnSF utilise des modèles de diffusion basés sur les scores pour assimiler des observations partielles et bruitées. Tests sur données réelles montrent que EnSF surpasse l'Ensemble Kalman Filter en régime non-linéaire.

BenchmarksPapersRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Designing Active Tether-Net Systems for Space Debris Capture with Graph-Learning-Aided Mixed-Combinatorial Optimization

Système de filet actif pour capture de débris spatiaux utilisant un réseau de neurones graphiques (GNN) pour optimiser simultanément la morphologie du filet, les masses et propulseurs des unités manœuvrables, et les points de visée du contrôleur. Le GNN réduit le problème d'optimisation mixte combinatoire non-linéaire (MCNLP) en problème non-linéaire (NLP) résolu par PSO avec affinage basé gradient.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Causal Intelligence for Constraint-Aware Intervention Design to Induce State Transitions

COAST est une approche de causalité pour concevoir des interventions contraintes induisant des transitions d'état. Le système apprend des graphes causaux contextuels, attribue les changements distributionnels à des mécanismes causaux, et optimise via une formulation multi-objectifs équilibrant efficacité, complexité et stabilité. Validé sur benchmarks synthétiques et données biologiques réelles.

RaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers

LoRe est un wrapper d'inférence sans entraînement qui optimise les solveurs neuraux basés sur diffusion pour l'optimisation combinatoire. Il applique un budget d'évaluation d'interactions par étape, routant dynamiquement le calcul vers les interactions à haut conflit/incertitude. Sur MIS et TSP, LoRe atteint ×8 speedup, ×12 réduction mémoire (MIS) et ×15 speedup, ×44 réduction mémoire (TSP n=1000).

RaisonnementBenchmarksPapers
SIG
72
HYP
18
arXiv cs.LG·

Learning Robust and Task-Invariant Functional Representation from fMRI through Siamese Self-Supervised Learning

BrainSimSiam, un framework d'apprentissage auto-supervisé léger, apprend des représentations robustes à partir de données fMRI sans labels. Utilisant des paires positives uniquement, il généralise sur plusieurs tâches (classification, régression) et surpasse les baselines supervisés, réduisant les besoins computationnels des modèles fondationnels en neuroimagerie.

Benchmarks
SIG
72
HYP
18
arXiv cs.AI·

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Étude sur les traces long-CoT utilisées pour l'entraînement supervisé des LLM. Les chercheurs identifient une « continuation nuisible » : quand le raisonnement continue après que la réponse soit suffisamment justifiée. Supprimer ces continuations améliore les résultats du fine-tuning. Ils proposent HCC (Harmful Continuation Cut), un proxy léger pour détecter ces limites.

RaisonnementFine-tuningPapers
SIG
72
HYP
15
arXiv cs.LG·

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL

Étude sur l'échec de la conception de récompenses par LLM en RL sparse structuré. Les auteurs identifient deux modes de défaillance dominants (reward flooding, incompréhension sémantique) et proposent un raffinement itératif guidé par diagnostics. Sur MiniGrid, DoorKey-8x8 passe de 2,3% à 97,6% de succès; KeyCorridor de 31,2% à 86,7%. La taxonomie des défaillances est le mécanisme principal.

Reinforcement learningLlamaPrompt engineering
SIG
72
HYP
18
arXiv cs.AI·

Provably Secure Agent Guardrail

Nouvel article arXiv proposant ePCA (Proof-Constrained Action), un framework de sécurité pour agents IA basé sur la vérification formelle. Les agents doivent formaliser leurs intentions en contraintes logiques du premier ordre avant d'exécuter des actions physiques, contournant les limites des garde-fous sémantiques empiriques. Évaluations montrent 0% de taux de succès d'attaque et 0% de faux positifs.

Agents IASécurité IAAlignement
SIG
72
HYP
35
arXiv cs.AI·

DenseSteer: Steering Small Language Models towards Dense Math Reasoning

DenseSteer est une méthode d'inférence sans entraînement qui améliore le raisonnement mathématique des petits modèles (≤3B paramètres) en modulant leurs représentations internes vers des patterns de raisonnement dense. Sur Qwen-2.5, l'approche montre que un raisonnement plus efficace utilise moins d'étapes mais avec une densité informationnelle plus élevée.

RaisonnementFine-tuningBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

Tailoring the Curriculum: Student-Centered Reasoning Distillation via Dynamic Data-Model Compatibility

Nouvelle métrique DMC (Data-Model Compatibility) pour évaluer l'adéquation des données d'entraînement lors de la distillation de raisonnement vers des modèles plus petits. DMC considère la qualité des données, la difficulté relative et les capacités du modèle étudiant. Validation sur plusieurs modèles et tâches montre corrélation forte avec la performance et amélioration via sélection dynamique de données.

RaisonnementFine-tuningBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models

Étude de la géométrie des représentations induites par LoRA via autoencodeurs creux (SAE) sur Gemma-2-9B. Les chercheurs observent un faible alignement géométrique entre les dictionnaires de features LoRA et les SAE préentraînés, suggérant que LoRA crée des structures représentationnelles distinctes dans le flux résiduel.

Fine-tuningSécurité IAPapers
SIG
72
HYP
15
arXiv cs.LG·

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill utilise la distillation de connaissances pour améliorer l'annotation taxonomique en métagénomique. GenomeOcean, un modèle fondation génomique de 500M paramètres, génère des soft labels pour entraîner un réseau étudiant léger, réduisant le bruit des outils de recherche initiaux. Sur 7 datasets CAMI2, TaxDistill améliore le F1 score de MMseqs2 de 0,763 à 0,941 sur le dataset Gastrointestinal.

PapersFine-tuningBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching

Article arXiv proposant une architecture multi-agent avec mémoire sémantique et caching pour réduire les hallucinations LLM. Pipeline à trois étages (FrontEndAgent, SecondLevelReviewer, ThirdLevelReviewer) évalué sur 310 prompts. Résultats : réduction THS de -31,3% à -35,9%, taux de cache hit de 47,3%, réduction de 47% des appels LLM. Pas de réentraînement requis.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
28
arXiv cs.AI·

When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis

Des chercheurs proposent une méthode d'audit basée sur le désaccord entre modèles pour évaluer les LLM utilisés par les agences fédérales pour catégoriser les commentaires publics. Sur 1 260 commentaires USDA analysés avec 4 LLM, la divergence thématique inter-modèles dépasse la variation intra-modèle, et les annotateurs humains introduisent des cadres interprétatifs absents de l'ensemble.

ÉvaluationsRaisonnementRégulation
SIG
72
HYP
18
arXiv cs.AI·

BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation

BEAMS établit des benchmarks pour évaluer les outils IA en modélisation et simulation. Le projet open-source sd ai teste plusieurs LLMs sur des tâches comme la traduction causale, l'itération de modèles et le raisonnement causal. Les résultats montrent que les outils IA performent mieux en discussion qualitative qu'en raisonnement causal et correction d'erreurs quantitatives.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Article théorique sur la stabilisation de l'apprentissage par différence temporelle hors-politique avec approximation de fonction. Propose BA-TDC et BA-TDRC, remplaçant la matrice auxiliaire de TDC par la matrice de Bellman comportementale. Analyse linéaire avec convergence prouvée sous condition de stabilité Hurwitz; expériences sur chaînes de Markov et contres-exemples classiques.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
08
arXiv cs.AI·

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

STHTD-MP, une nouvelle méthode de temporal-difference off-policy, remplace la métrique de covariance par la matrice de Bellman induite par la politique de comportement dans la formulation primal-dual. Analyse de convergence formelle et comparaison spectrale avec GTD2-MP montrent des gains potentiels sur benchmarks (Random Walk, Boyan Chain).

Reinforcement learningPapersBenchmarks
SIG
72
HYP
08
arXiv cs.CL·

Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text

eXTC combine optimisation structurée de prompts et apprentissage par renforcement pour la classification de texte. Le système apprend d'abord un rulebook en langage naturel, puis distille le raisonnement d'un LLM teacher vers un modèle compact, avant d'étendre les capacités via RL. Résultat : inférence rapide avec traces de raisonnement locales et explications globales modulaires.

Prompt engineeringReinforcement learningRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane

Redpanda propose une architecture de plan de données pour agents IA autonomes utilisant des canaux de métadonnées hors-bande. Ces canaux appliquent les politiques de sécurité, les classifications de données et les contraintes comportementales en dehors du chemin de lecture/écriture de l'agent, empêchant les hallucinations et manipulations. Démonstration avec un système multi-agent de rééquilibrage de portefeuille.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
28
arXiv cs.CL·

Error as a Lens: Probing LLM Reasoning through Synthetic Misconception Generation

Framework pour générer des erreurs synthétiques ciblées avec LLM selon une taxonomie cognitive (Bloom révisée). Un Generation Agent produit des solutions erronées, un Examination Agent valide leur cohérence avec le mode d'erreur spécifié. Testé sur TheoremQA, révèle que générer des erreurs authentiques est bien plus difficile que produire des réponses fausses arbitraires.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT), modèle de 306M paramètres basé sur GPT-2 Small, intègre des composants inspirés de la théorie des catégories et des sciences cognitives. Sur WikiText-103, CCT atteint 21.27 PPL contre 24.19 pour GPT-2 Small, soit une réduction de 12% (2.92 PPL). Les ablations montrent que le simplicial message passing représente 84% de cette amélioration.

GPTPapersBenchmarks
SIG
72
HYP
25
arXiv cs.CL·

Large language models reorganize representational geometry during in-context learning

Étude arXiv sur la géométrie représentationnelle lors de l'apprentissage en contexte (ICL) dans les LLM. Les chercheurs montrent que la performance ICL corrèle avec la structure représentationnelle des tâches et que l'ICL réussi s'accompagne d'une réorganisation géométrique augmentant la séparabilité. Le comportement des LLM suit un algorithme de type prototype.

RaisonnementPapers
SIG
72
HYP
18