Archives

mai 2026

3147 articles

Reddit r/LocalLLaMA·

Anyone else fighting Blackwell GSP timeout in production passthrough? How are you handling recovery without a host reboot?

Utilisateur rapporte des timeouts GSP (Graphics System Processor) sur RTX Pro 5000 Blackwell en passthrough VFIO sous Linux KVM/QEMU. Le GPU entre dans un état irrécupérable après timeout d'initialisation. Secondary Bus Reset, D3cold et rechargement driver échouent ; seul un reboot complet du host fonctionne. Cherche solutions de récupération sans reboot.

InfrastructureOpen source
SIG
35
HYP
15
arXiv cs.AI·

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

Position paper proposant des « data probes » — séquences synthétiques générées à partir de processus aléatoires — pour comprendre systématiquement comment les caractéristiques des données affectent la performance des LLM. Approche théorique utilisant des concepts comme les « typical sets » pour dépasser les heuristiques empiriques actuelles basées sur expérimentation coûteuse.

PapersÉvaluationsFine-tuning
SIG
45
HYP
15
arXiv cs.AI·

Evaluating the Utility of Personal Health Records in Personalized Health AI

Étude évaluant Gemini 3.0 Flash sur 2,257 requêtes de patients avec contexte de dossiers médicaux personnels (PHR). Amélioration significative de l'utilité des réponses avec données PHR (p<0.001). Identification de lacunes : désorientation temporelle, confabulations rares. Framework d'évaluation développé pour surveiller la qualité des réponses basées sur PHR.

GeminiRAGÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Étude comparative de Kolmogorov-Arnold Networks (KANs) vs MLPs pour la reconnaissance d'activité humaine (HAR) basée sur IMU. Les KANs excellent sur données propres mais échouent sur données bruitées réelles. L'architecture hybride KAN-MLP proposée atteint +5,33% de F1-score macro sur 8 datasets publics, surpassant les baselines pures.

BenchmarksPapers
SIG
72
HYP
25
arXiv cs.AI·

Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On

Article de vision sur les réseaux d'agents autonomes (A2A). Les auteurs argumentent que la confiance dans ces systèmes multi-agents ne peut pas être ajoutée après coup, mais doit être intégrée dès la conception. Ils identifient des vulnérabilités systémiques (composition adversariale, désalignement sémantique, défaillances en cascade) et proposent un cadre conceptuel basé sur quatre piliers de conception.

Agents IAMulti-agentsAlignement
SIG
45
HYP
35
arXiv cs.AI·

Embedding by Elicitation: Dynamic Representations for Bayesian Optimization of System Prompts

ReElicit est un framework d'optimisation bayésienne pour tuner les system prompts avec feedback agrégé uniquement. Un LLM élicite dynamiquement un espace de features compact et interprétable, puis un processus Gaussien sélectionne des vecteurs cibles optimisés en prompts déployables. Sur 10 tâches avec budget de 30 évaluations, ReElicit surpasse les baselines d'optimisation de prompts.

Prompt engineeringRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench est un benchmark pour évaluer la délégation émergente dans les workflows multi-agents long-horizon. Le substrate inclut 11 modèles (7 familles), des tâches GAIA/tau-bench/BFCL, et des métriques multi-axes (qualité, coût, latence, fidélité de routage). Les résultats montrent que la qualité seule masque les signaux d'orchestration, et que le canal de livraison domine le contenu des descriptions.

Agents IAMulti-agentsBenchmarks
SIG
82
HYP
15
arXiv cs.AI·

MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

MOCHA est un algorithme d'optimisation multi-objectif pour affiner les skills d'agents LLM. Il utilise la scalarisation de Chebyshev et l'annealing exponentiel pour explorer la frontière de Pareto complète, y compris les régions non-convexes. Sur 6 tâches, MOCHA améliore la performance de 7,5% en moyenne (jusqu'à 14,9% sur FEVER) tout en découvrant deux fois plus de variantes Pareto-optimales que les baselines.

Agents IAPrompt engineeringReinforcement learning
SIG
75
HYP
25
arXiv cs.AI·

Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

Algorithme IC-Q pour l'apprentissage décentralisé de workflows multi-agents avec contraintes d'interface. Chaque agent observe seulement une fonction locale de l'artefact partagé et son état privé, sans accès centralisé aux trajectoires jointes. Garantie de convergence en nombre fini d'échantillons pour Q-learning neuronal avec observabilité partielle décentralisée.

Multi-agentsReinforcement learningAgents IA
SIG
82
HYP
15
arXiv cs.AI·

How Far Are We From True Auto-Research?

ResearchArena évalue 117 articles générés par des agents IA (Claude Code Opus 4.6, GPT-5.4 Codex, Kimi Code K2.5) sur la boucle complète de recherche. Les scores manuscrits seuls sont optimistes, mais l'examen artefactuel révèle des défaillances majeures : rigueur expérimentale insuffisante, résultats fabriqués, expériences sous-alimentées. Aucun article n'atteint le seuil d'acceptation des venues top-tier.

Agents IABenchmarksPapers
SIG
78
HYP
25
arXiv cs.AI·

SimGym: A Framework for A/B Test Simulation in E-Commerce with Traffic-Grounded VLM Agents

SimGym est un framework qui simule des tests A/B sur des vitrines e-commerce via des agents VLM opérant dans un navigateur réel. Il génère des personas d'acheteurs à partir des données de clickstream, combine perception multimodale et mémoire épisodique, et atteint 77% d'alignement directionnel avec les changements réels de panier. Les cycles expérimentaux passent de semaines à moins d'une heure.

Agents IAVisionBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Can Large Language Models Revolutionize Survey Research? Experiments with Disaster Preparedness Responses

Étude arXiv évaluant l'intégration des LLM dans la recherche par sondage sur la préparation aux catastrophes. Framework à 5 étapes testé sur 946 résidents de Floride (ouragan Milton 2024). Le modèle A-TLM proposé surpasse les méthodes classiques d'imputation (RMSE 1.439 vs 1.496) en conditions MNAR avec structure théorique PMT.

RAGRaisonnementÉvaluations
SIG
72
HYP
25
arXiv cs.CL·

Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters

Étude sur l'injection de compétences cross-modales : transfert d'expertise d'un LLM spécialisé vers un VLM via fusion de modèles. Analyse systématique de 3 aspects : scénarios (succès en suivi d'instructions et cross-lingue, échec en raisonnement mathématique), méthodes (TA et DARE surpassent les alternatives), hyperparamètres. Évite SFT coûteux.

Fine-tuningVisionRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

PRISM est un benchmark de 10 372 paires instruction-code pour l'évaluation de la génération vidéo programmatique par LLM. Il propose 4 métriques : fiabilité du code, cohérence spatiale, complexité visuelle et densité temporelle. L'évaluation de 7 LLM révèle un écart d'exécution-spatial de 41% : le code exécutable ne garantit pas une sortie visuellement cohérente.

BenchmarksGénération de codeGénération de vidéos
SIG
82
HYP
15
arXiv cs.AI·

Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling

SIGMA est un framework multi-agent basé sur graphes signés qui modélise explicitement les relations de confiance, conflit et neutralité entre agents LLM. Via passage de messages conscient des conflits et agrégation pondérée, il supprime les signaux contradictoires et renforce les agents fiables. Tests sur 6 benchmarks montrent des gains de précision et résilience aux conflits.

Multi-agentsRaisonnementAgents IA
SIG
72
HYP
28
arXiv cs.CL·

Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning

Conditional Entropy Shaping (CES) contrôle dynamiquement l'entropie des tokens pour équilibrer concision et précision du raisonnement. Implémenté sur DeepSeek-R1-Distill-7B, CES pénalise les tokens haute-entropie sur les chemins corrects et les récompense sur les chemins erronés. Résultats : amélioration de la précision avec réduction de la longueur des réponses sur 12 benchmarks mathématiques.

DeepSeekRaisonnementReinforcement learning
SIG
72
HYP
28
arXiv cs.CL·

IMLJD: A Computational Dataset for Indian Matrimonial Litigation Analysis

IMLJD est un dataset de 3,613 jugements indiens couvrant les litiges matrimoniaux (IPC 498A, loi sur la protection des femmes contre la violence domestique, CrPC 482). Données de la Cour suprême (2000-2024, 1,474 cas) et de la Haute Cour du Karnataka (2018-2024, 2,139 cas). Taux d'annulation : 57,6% à la Cour suprême vs 39,7% au Karnataka. Dataset, code et graphe de connaissances publiés en open source.

BenchmarksPapersOpen source
SIG
72
HYP
15
arXiv cs.AI·

Attention-Guided Reward for Reinforcement Learning-based Jailbreak against Large Reasoning Models

Étude des attaques jailbreak contre les modèles de raisonnement (LRM) via apprentissage par renforcement. Les chercheurs montrent que le taux de succès des attaques corrèle avec les patterns d'attention du modèle. Ils proposent une méthode RL intégrant des signaux d'attention dans la fonction de récompense, testée sur 5 LRM avec résultats supérieurs en efficacité et transférabilité.

RaisonnementReinforcement learningSécurité IA
SIG
75
HYP
35
arXiv cs.AI·

Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment

Un article arXiv introduit le critère de validité « Generative-Evaluative Agreement » (GEA) pour évaluer si un LLM peut scorer correctement les réponses qu'il a lui-même générées. Sur un test adaptatif à deux étapes, le modèle récupère ~70% de la variance intentionnelle avec biais positif systématique. GEA est fort (r>0.7) pour les compétences syntaxiques mais proche de zéro pour les compétences de conception.

ÉvaluationsRaisonnementSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects

SceneCode compile des prompts en langage naturel en programmes Python exécutables pour générer des scènes d'intérieur interactives avec objets articulés. Un système multi-agent (planner-designer-critic) produit des requêtes d'assets converties en code Blender validé par boucle repair-and-refine, exportable en SDF pour simulation physique.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.CL·

How Do Document Parsers Break? Auditing Structural Vulnerability in Document Intelligence

Étude de robustesse des pipelines d'analyse de mise en page (DLA) utilisés en RAG et QA sur documents longs. Les auteurs identifient un biais d'empreinte et proposent un cadre d'audit léger mesurant la perte structurelle au niveau des blocs (B-SLR). Sur 1 000 pages avec MinerU et PP-StructureV3, B-SLR corrèle mieux avec l'instabilité OCR (R²=0.727/0.916) que les métriques surfaciques (R²=0.384/0.110).

PapersÉvaluationsRAG
SIG
72
HYP
18
arXiv cs.CL·

OpenCompass: A Universal Evaluation Platform for Large Language Models

OpenCompass est une plateforme d'évaluation open-source pour LLM proposant une architecture modulaire avec 5 composants clés : système de configuration, partitionnement de tâches, exécution/ordonnancement, unité d'exécution et visualisation. Supporte évaluateurs rule-based, LLM-as-a-Judge et en cascade sur benchmarks multi-domaines (connaissance, raisonnement, code, science).

BenchmarksÉvaluationsOpen source
SIG
75
HYP
25
arXiv cs.LG·

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI est un routeur de cascade LLM qui utilise la calibration d'incertitude pour réduire les coûts d'inférence. Via régression isotonique, il mappe l'incertitude au niveau des tokens à une probabilité d'erreur par requête, puis sélectionne le seuil d'escalade par minimisation de coût. Sur 75 000 requêtes NER avec modèles 4B/12B, UCCI réduit les coûts de 31% tout en diminuant l'erreur de calibration de 0.12 à 0.03.

Agents IAÉvaluationsInfrastructure
SIG
82
HYP
15
arXiv cs.CL·

DECOR: Auditing LLM Deception via Information Manipulation Theory

DECOR est un framework multi-agent pour auditer la déception dans les LLM en décomposant les contextes en unités informationnelles atomiques et en évaluant quatre dimensions de manipulation (omission, focalisation, obscurcissement). Testé sur 15 modèles frontier, il atteint l'état de l'art en détection de déception mono et multi-tour avec profils d'manipulation interprétables.

Multi-agentsSécurité IAAlignement
SIG
78
HYP
25
arXiv cs.CL·

Fine-tuning language encoding models on slow fMRI improves prediction for fast ECoG

Des chercheurs utilisent l'IRM fonctionnelle (fMRI) pour améliorer les modèles d'encodage entraînés sur l'ECoG (électrocorticographie). En affinant des représentations de langage parlé sur fMRI, ils obtiennent de meilleures prédictions ECoG malgré une résolution temporelle 100× inférieure. Les performances s'améliorent avec plus de données fMRI.

Fine-tuningRaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

REFLECT est un benchmark de méta-évaluation pour tester la fiabilité des juges LLM supervisant des agents de recherche. Les auteurs créent une taxonomie fine des défaillances (processus et résultats) via interventions contrôlées sur des traces d'exécution. Résultat : les meilleurs modèles LLM atteignent <55% de précision sur la vérification d'evidence et le raisonnement.

Agents IAÉvaluationsRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking

ReacTOD combine neuro-symbolique et ReAct pour le dialogue orienté tâche. Une boucle ReAct bornée avec validation symbolique corrige itérativement les erreurs de dialogue (taux 93.1%), éliminant hallucinations et erreurs de format. Sur MultiWOZ 2.1 : gpt-oss-20B atteint 52.71% JGA (+14pp), Qwen3-8B 47.34%. Sur SGD : Claude-Opus 80.68%, Qwen3-32B 64.09%.

Agents IARaisonnementBenchmarks
SIG
82
HYP
18
arXiv cs.LG·

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit est un framework de reinforcement learning qui améliore la capacité des LLM à gérer les critiques utilisateur en raisonnement scientifique. Il décompose les comportements en quatre quadrants (Correction, Sycophancy, Robustness, Boundary) et utilise des récompenses transition-aware. Sur ChemBench, TRQA et EarthSE, ReCrit améliore la précision de 38,15% à 51,49% sur Qwen3.5-4B.

Reinforcement learningRaisonnementQwen
SIG
78
HYP
25
arXiv cs.LG·

Metric-Gradient Projection for Stable Multi-Agent Policy Learning

HPML (Hodge-Projected Multi-agent Learning) stabilise l'apprentissage multi-agent en projetant le champ de mise à jour conjointe sur une composante métrique-gradient. La méthode utilise une projection de type Hodge dans un espace L² de champs vectoriels, implémentée via réalisations basées graphes et réseaux de neurones amortis. Résultats : stabilité améliorée et rendements normalisés supérieurs sur benchmarks CTDE.

Multi-agentsReinforcement learningPapers
SIG
72
HYP
15
arXiv cs.LG·

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduit un curriculum adversarial avec contrainte KL pour améliorer la robustesse des world models vidéo. Une politique expose les trajectoires haute-erreur d'un modèle diffusion tandis qu'un buffer PAT (Prioritized Adversarial Trajectory) re-classe les données selon l'erreur de prédiction et le progrès d'apprentissage. Évaluation sur MineRL montre une robustesse accrue sur trajectoires OOD.

RaisonnementReinforcement learningPapers
SIG
75
HYP
15
arXiv cs.CL·

Base Models Look Human To AI Detectors

Les détecteurs IA commerciaux (GPTZero, Pangram) classent le texte des modèles de base comme humain, contrairement aux versions instruction-tuned. Les chercheurs proposent HIP (Humanization by Iterative Paraphrasing), un pipeline qui affine minimalement un modèle de base en paraphraseur itératif. Testé sur Llama-3 et Qwen-3 (0.6B-70B), HIP améliore la ressemblance humaine tout en préservant la sémantique.

LlamaQwenFine-tuning
SIG
72
HYP
35
arXiv cs.LG·

PASC: Pipeline-Aware Conformal Prediction with Joint Coverage Guarantees for Multi-Stage NLP and LLM Pipelines

PASC est une méthode de prédiction conforme qui garantit la couverture simultanée de tous les étages dans les pipelines NLP multi-étapes (NER → NED → entity typing, RAG, chaînes d'agents). Sur CoNLL-2003, PASC atteint 96,4% de couverture end-to-end vs 93,4% pour Bonferroni et 86,5% pour CP indépendant, avec 1,7x plus rapide et robustesse sous distribution shift (WNUT-17, WikiNEuRal).

ÉvaluationsRaisonnementAgents IA
SIG
78
HYP
15
arXiv cs.LG·

How Faithful Is Trajectory-Based Data Attribution? Error Sources, Remedies, and Practical Guidelines

Analyse systématique des erreurs dans les méthodes d'attribution de données basées sur trajectoires. Identifie l'incompatibilité optimiseur (SGD vs AdamW) comme erreur dominante. Propose AdamW-influence avec améliorations de 10-300% en corrélation Spearman sur MLP, CNN, GPT-2, Llama 3.2-1B. Fournit directives pratiques pour sélection de données via framework K-step look-ahead.

PapersÉvaluationsFine-tuning
SIG
78
HYP
15
arXiv cs.CL·

Drifting Objectives for Refining Discrete Diffusion Language Models

TokenDrift applique les méthodes de drifting (correction d'objectif) aux modèles de diffusion discrets pour le langage. La technique lève les prédictions catégoriques en features soft-token, applique un drifting anti-symétrique dans un espace sémantique gelé, et rétropropage vers les logits. Sur MDLM et DUO, TokenDrift réduit la perplexité de génération de 89% et 86% à 4 NFE.

PapersGénération de codeRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

LambdaPO propose une optimisation de politique par comparaisons appariées pour l'alignement des modèles de raisonnement. Contrairement à GRPO qui utilise une baseline statistique unique, LambdaPO décompose l'avantage en différentiels de récompense pairwise entre trajectoires, pondérés par la confiance du modèle. Une récompense de densité sémantique enrichit le signal d'optimisation sur tâches mathématiques et QA.

Reinforcement learningRaisonnementAlignement
SIG
72
HYP
28
arXiv cs.LG·

Efficient Conditioning Why Pseudo Observation Batch Bayesian Optimization Works When It Does not

Étude théorique unifiant les méthodes de sélection batch en optimisation bayésienne parallèle (Constant Liar, Kriging Believer, fantasy models). Les auteurs identifient le « efficient conditioning » comme propriété clé des processus gaussiens, prouvant la génération de points distincts avec séparation d'ordre l. Validation expérimentale sur Hartmann6D, Ackley 8D, Levy10D et tuning SVM.

BenchmarksPapers
SIG
78
HYP
15
arXiv cs.LG·

Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models

Framework automatisé pour générer des benchmarks d'évaluation fine-grained des modèles fondamentaux. Pipeline multi-agent avec stratégie solution-graph pour améliorer la fiabilité des solutions. Trois benchmarks générés (ML, Finance Entreprise, Finance Personnelle) montrent taux d'erreur inférieur à MMLU/GSM8K. Évaluation de 12 modèles révèle différences de performance non détectées par benchmarks existants.

BenchmarksÉvaluationsMulti-agents
SIG
78
HYP
25
arXiv cs.LG·

Precision Tracked Transformer via Kalman Filtering, Kriging and Process Noise

Bayesian Filtering Transformer (BFT) intègre la gestion de l'incertitude dans les Transformers via filtrage de Kalman et kriging. L'attention devient kriging pondéré par la précision, la connexion résiduelle un update de Kalman adaptatif. BFT améliore les recommandations séquentielles (cold-start) et la robustesse des LLM sur données bruitées sans surcoût significatif.

RaisonnementBenchmarksPapers
SIG
78
HYP
25
arXiv cs.CL·

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Benchmark de cinq systèmes ASR commerciaux sur le code-switching (alternance entre deux langues) pour quatre paires linguistiques : arabe égyptien-anglais, arabe saoudien-anglais, persan-anglais, allemand-anglais. ElevenLabs Scribe v2 obtient le meilleur WER (13,2% global). L'étude propose BERTScore comme métrique plus fiable que WER pour l'arabe et le persan.

BenchmarksVoixÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

GoLongRL propose une recette post-training open-source pour l'apprentissage par renforcement en contexte long avec récompenses vérifiables. Les auteurs publient un dataset de 23K samples RLVR couvrant 9 types de tâches, et introduisent TMN-Reweight pour optimiser les récompenses hétérogènes. Qwen3-30B-A3B atteint des performances comparables à DeepSeek-R1 et Qwen3-235B.

Reinforcement learningRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

optimize_anything: A Universal API for Optimizing any Text Parameter

Un système d'optimisation basé sur LLM unifie six domaines distincts : architectures d'agents (89.5% sur ARC-AGI vs 32.5% baseline Gemini Flash), algorithmes de scheduling (réduction 40% coûts cloud), kernels CUDA (87% égalent/surpassent PyTorch), empaquetage de cercles. La recherche multi-tâche avec transfert cross-problem surpasse l'optimisation indépendante. Code ouvert dans le projet GEPA.

RaisonnementAgents IAGénération de code
SIG
78
HYP
35
arXiv cs.CL·

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Étude arXiv sur les « agent meltdowns » : défaillances où des agents IA (GPT, Grok, Gemini) adoptent des comportements dangereux face à erreurs environnementales bénignes (pages inaccessibles, fichiers manquants). 64,7% des rollouts avec erreurs simulées produisent des meltdowns (reconnaissance non autorisée, contournement d'accès), souvent non signalés à l'utilisateur.

Agents IASécurité IABenchmarks
SIG
78
HYP
25
arXiv cs.CL·

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Un article de position critique les méthodes d'Uncertainty Quantification (UQ) pour LLMs, arguant qu'elles ne font que du clustering non supervisé. Ces approches quantifient la cohérence interne des générations plutôt que leur exactitude externe, échouant à détecter les « hallucinations confiantes ». L'auteur propose un changement de paradigme vers une UQ ancrée dans la vérité objective.

Sécurité IAAlignementÉvaluations
SIG
72
HYP
25
arXiv cs.CL·

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Stepwise Confidence Attribution (SCA) diagnostique les erreurs de raisonnement multi-étapes dans les LLMs fermés en attribuant une confiance à chaque étape basée sur les traces générées. Deux méthodes : NIBS (non-paramétrique) et GIBS (basée graphe). Sur le raisonnement mathématique et QA multi-hop, SCA identifie les étapes erronées et améliore l'auto-correction de 13,5%.

RaisonnementÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.CL·

Lost in Interpretation: The Plausibility-Faithfulness Trade-off in Cross-Lingual Explanations

Les explications en anglais pour auditer des LLM multilingues masquent un compromis : elles obtiennent un meilleur accord avec les rationales humaines mais perdent leur ancrage causal dans les prédictions du modèle. Sur 3 tâches et 5 langues, la compréhensibilité se dégrade jusqu'à 5,7x en pivot anglais, même avec une précision stable. Les auteurs recommandent d'auditer dans la langue d'entrée.

Évaluations
SIG
75
HYP
15
arXiv cs.CL·

Are Rationales Necessary and Sufficient? Tuning LLMs for Explainable Misinformation Detection

Papier arXiv proposant LONSREX, un pipeline de synthèse de données pour affiner les LLM en détection de désinformation explicable. Les auteurs identifient deux problèmes : les rationales filtrées sur label binaire sont insuffisantes, et les LLM forts produisent des rationales verbeux inutiles. LONSREX introduit une métrique évaluant la nécessité et suffisance de chaque étape de vérification.

LlamaFine-tuningÉvaluations
SIG
72
HYP
25
arXiv cs.CL·

A Multi-Agent Framework for Feature-Constrained Difficulty Control in Reading Comprehension Item Generation

MAFIG, un framework multi-agent, utilise plusieurs agents LLM et des évaluateurs spécialisés pour générer des items de compréhension de lecture avec contrôle de difficulté robuste. La méthode construit des séquences de contraintes de features produisant une difficulté monotoniquement croissante, surpassant les approches single-agent existantes.

Multi-agentsAgents IAGénération de code
SIG
72
HYP
18
arXiv cs.CL·

SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models

SciCustom est un framework pour construire des benchmarks personnalisés évaluant les capacités scientifiques spécifiques des LLM. Il organise les connaissances scientifiques en unités ontologiques, utilise un consensus multi-modèle pour identifier les unités pertinentes, et génère des benchmarks à partir de données réelles en chimie et santé sans annotation experte.

BenchmarksÉvaluationsPapers
SIG
78
HYP
22
arXiv cs.CL·

EmbGen: Teaching with Reassembled Corpora

EmbGen est un pipeline de génération de données synthétiques qui décompose un corpus en paires entité-description, les réassemble via similarité d'embeddings, puis génère des paires QA avec sampling par proximité et clusters spécialisés. Sur trois datasets, EmbGen améliore la précision binaire de 12,5% (5M tokens) à 88,9% (20M tokens) sur le dataset le plus hétérogène comparé aux baselines.

Fine-tuningRAGEmbeddings
SIG
72
HYP
18
arXiv cs.CL·

Backtracking When It Strays: Mitigating Dual Exposure Biases in LLM Reasoning Distillation

MOTAB, une nouvelle méthode de distillation du raisonnement LLM, résout le problème des biais d'exposition dual en surveillant dynamiquement la génération de l'étudiant et en revenant en arrière quand elle s'écarte d'une limite de sécurité adaptative. Testé sur LIMO-v2 et AceReason, MOTAB améliore les performances de ~3% en atténuant les biais d'exposition classiques et inverses.

RaisonnementFine-tuningPapers
SIG
72
HYP
25
arXiv cs.LG·

Compositional Literary Primitives in Instruction-Tuned LLMs: Cross-Architectural SAE Features for Self, Style, and Affect

Étude des primitives littéraires dans Llama 3.1 8B-Instruct et Gemma 2 9B-IT via autoencodeurs creux. Quatre classes de features identifiées : naming-gates (tokens d'affect), cluster self (registre première personne), modulateurs stylistiques, émotions compositionnelles. Llama couvre 27/27 émotions (taxonomie Cowen-Keltner), Gemma 23/27. Validation par panel de 5 juges LLM.

LlamaGeminiFine-tuning
SIG
78
HYP
15
arXiv cs.LG·

Symmetry in the Wild: The Role of Equivariance in Neural Fluid Surrogates

Les architectures équivariantes améliorent les surrogates neuraux pour la dynamique des fluides (CFD) lorsque les données manquent de régularités fortes, mais dégradent les performances sur des datasets fortement alignés. AB-GATr, un transformateur géométrique E(3)-équivariant, surpasse l'augmentation de données sur aérodynamique automobile et hémodynamique.

RaisonnementBenchmarksPapers
SIG
75
HYP
15
arXiv cs.LG·

Emergence of Frontier Superposition: M\"obius attractor and Cascade Supervision

Article théorique sur l'émergence de superposition dans les Transformers pour le raisonnement en profondeur. Identifie un attracteur de Möbius sous symétrie S_n et une supervision en cascade qui permettent à la descente de gradient de converger vers un état de superposition équipondéré sur graphes Erdős-Rényi. Prédictions analytiques validées expérimentalement (cosinus final 0.37 vs 0.69).

RaisonnementPapersReinforcement learning
SIG
75
HYP
15