Archives

mai 2026

3147 articles

arXiv cs.CL·

How Much Structure Do LLMs Need? Evaluating LLMs for Bibliometric Cluster Description

Étude évaluant 6 pipelines LLM pour générer des descriptions de clusters bibliométriques. Sur 100 analyses publiées, les LLMs produisent des descriptions sémantiquement proches des versions humaines mais hallucinent des références et échouent à inférer la structure bibliométrique seuls. Performance optimale en workflow hybride : algorithmes définissent clusters, LLMs génèrent descriptions lisibles.

BenchmarksÉvaluationsRAG
SIG
72
HYP
15
arXiv cs.LG·

Federated Learning over Human-Body Communication for On-Body Edge Intelligence: A Survey, Taxonomy, and BODYFED-HBC Scheduling Vignette

Article de synthèse sur l'intersection entre la communication intra-corporelle (HBC) et l'apprentissage fédéré pour les réseaux de capteurs portables. Propose une taxonomie des déploiements FL (intra-corps, corps-hub, multi-utilisateur, cloud clinique) et introduit BODYFED-HBC, une architecture de référence avec algorithme de planification et simulation reproductible basée sur des données publiques.

Benchmarks
SIG
72
HYP
15
arXiv cs.AI·

LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

LC-ERD est un framework d'auto-alignement pour LLM qui mine les structures logiques latentes via décomposition de récompenses régulées. Il résout trois défis : le bruit d'étiquetage par biais mimétique, la supervision grossière et l'effondrement distributionnel. Utilise un Potentiel Logique Variationnel et décomposition multi-agent basée sur le principe IGM.

RaisonnementReinforcement learningAlignement
SIG
72
HYP
28
arXiv cs.CL·

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

DRInQ est un benchmark pour évaluer le raisonnement pragmatique des LLM sur l'implicature conversationnelle. Les chercheurs montrent une asymétrie génération-inférence : les modèles génèrent des scénarios pragmatiques plausibles mais échouent à récupérer l'implication intended à l'inférence. Le prompting structuré améliore l'alignement pour les petits modèles.

BenchmarksRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

SEAL est un framework de co-évolution fermée pour agents LLM utilisant des outils. Il collecte des trajectoires vérifiables, diagnostique les échecs au niveau des tours, et utilise ces signaux pour adapter simultanément l'environnement d'apprentissage et la politique de l'agent. Avec 400 exemples, SEAL gagne +8.25 à +26.25 points sur trois backbones et transfère bien hors-distribution.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Right-Sizing Communication and Recommendation Set Size in AI-Assisted Search

Article théorique sur l'optimisation de l'interaction utilisateur-système de recommandation IA. Modélise le coût de communication (précision du message utilisateur) et le coût de recherche (taille de l'ensemble de recommandations). Pour d grand, caractérise comment la précision optimale et la taille de l'ensemble dépendent des paramètres de coût sous deux schémas d'échantillonnage.

Agents IARAG
SIG
65
HYP
15
arXiv cs.CL·

Toxicity in Twitch Chats: An LLM-Based Analysis Across Gaming Communities

Analyse de 20 millions de messages de chat Twitch (4 452 streams, 7 genres) avec un LLM en classification zéro-shot. 2,4% des messages classés toxiques selon la taxonomie Twitch (harcèlement, discrimination, contenu sexuel, profanité). F1=94,5% sur TextDetox. Les jeux MOBA affichent 3,2% de toxicité, les jeux de sport 2%. Variations significatives intra-genre révélant des normes communautaires spécifiques.

Sécurité IAÉvaluationsBenchmarks
SIG
75
HYP
15
arXiv cs.CL·

Decompose-and-Refine: Structured Legal Question Answering with Parametric Retrieval

DaR (Decompose-and-Refine) est un framework pour répondre à des questions juridiques complexes en décomposant la question en sous-questions atomiques et en générant des requêtes paramétriques alignées sur le texte statutaire. Évalué sur KoBLEX (benchmark coréen multi-hop), avec Qwen3-32B et Gemma3-27B, DaR améliore la précision de récupération et la qualité des réponses en réduisant les hallucinations.

RaisonnementRAGQwen
SIG
72
HYP
18
arXiv cs.CL·

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Des chercheurs appliquent Direct Preference Optimization (DPO) pour améliorer la transcription code-switching anglais-mandarin dans les Audio LLMs. Trois modes d'échec identifiés : omission de langue, traduction au lieu de transcription, hallucination. Entraînement sur 100K paires (570 heures) réduit le MER jusqu'à 89,6% (in-distribution) et 20,0% (out-of-distribution).

Reinforcement learningAlignementVoix
SIG
78
HYP
15
arXiv cs.CL·

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

QUEST est une famille de modèles open-source (2B à 35B) entraînés comme agents de recherche profonde via une pipeline de synthèse de données et RL. Avec seulement 8K tâches synthétiques, QUEST égale ou surpasse les systèmes propriétaires sur 8 benchmarks de recherche, excelle en citation et synthèse de rapports. Code, données et modèles publiés.

Agents IAReinforcement learningOpen source
SIG
82
HYP
25
arXiv cs.CL·

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

AERIC est un moniteur de sécurité léger (387 paramètres) qui détecte les dialogues nuisibles implicites en analysant les états cachés pendant le décodage, sans passe forward supplémentaire. Sur DiaSafety et Harmful Advice, il améliore l'AUROC de 0.683→0.714 et 0.822→0.858. Le déploiement ajoute seulement 2.34% de latence contre 79.40% pour Qwen3Guard-Stream-4B.

Sécurité IAAlignementRaisonnement
SIG
78
HYP
15
arXiv cs.CL·

Document Classification Pattern Recognition via Information Fusion: A Systematic Review of Multimodal and Multiview Representation Approaches

Revue systématique de 139 études sur la fusion d'informations pour la classification de documents. Méta-analyse révélant que la fusion multimodale améliore la précision de +5,28 points (p=0,0016) et la fusion multivue de +4,67% en précision. Critique majeure : seulement 11,8% des études multimodales et 23,3% des études multivue utilisent des tests statistiques, compromettant la reproductibilité.

BenchmarksÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.AI·

Accelerating Long-Tail Generation in Synchronous RLHF Training via Adaptive Tensor Parallelism

PAT, une méthode de parallélisme tensoriel adaptatif, optimise l'étape de génération en RLHF synchrone. Elle reconfigure dynamiquement la parallélisation pendant le décodage pour compenser le déséquilibre de longueur de réponses. Implémentée sur SGLang/VeRL, PAT réduit la latence de génération jusqu'à 34,6% sur LLaMA3.1-8B et Qwen3-14B.

Reinforcement learningInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

PromptAudit: Auditing Prompt Sensitivity in LLM-Based Vulnerability Detection

PromptAudit évalue l'impact des stratégies de prompting sur la détection de vulnérabilités par LLM. Sur 5 modèles open-weight et 1 000 CVE (6 074 samples), le chain-of-thought standard surpasse les autres approches, tandis que few-shot aide certains modèles. L'adaptive chain-of-thought réduit le recall, self-consistency crée trop d'abstention.

Prompt engineeringÉvaluationsSécurité IA
SIG
78
HYP
15
arXiv cs.LG·

Cascade-KDE: Robust Time-Series Restoration under Out-of-Distribution Impulse Corruptions

Cascade-KDE est une méthode sans apprentissage pour restaurer les séries temporelles corrompues par du bruit gaussien et des pics aberrants. Elle estime une densité spatio-temporelle, applique une troncature robuste pour limiter l'influence des anomalies, puis affine via cascade exponentielle. Testée sur ECG et dégradation batterie, elle préserve les pics de dérivée mieux que les filtres classiques.

BenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

AstroMind est un benchmark pour évaluer le raisonnement des LLM sur le comportement des engins spatiaux. Basé sur des simulations astrodynamiques haute fidélité, il teste l'inférence d'intention, l'estimation de paramètres de manœuvre et l'évaluation des menaces. Qwen3 (32B) excelle en inférence d'intention, QwQ (32B) en évaluation de menaces, GPT-OSS (20B) en qualité de raisonnement.

BenchmarksRaisonnementQwen
SIG
75
HYP
15
arXiv cs.AI·

Neuro-Inspired Inverse Learning for Planning and Control

Framework neuro-inspiré pour la planification et le contrôle embodié. L'Inverter utilise l'Inverse Learning (IL) pour générer des séquences d'actions multi-étapes. Améliore les baselines offline-RL et diffusion-planner sur D4RL (+24.2% en moyenne) avec 100-1000x moins de calcul à l'inférence. Application : synthèse de portes quantiques avec fidélité GRAPE en 1000x plus rapide.

RaisonnementReinforcement learningRobotique
SIG
72
HYP
18
arXiv cs.LG·

Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers

Méthode pour identifier les circuits d'attention-heads dans les transformers pré-entraînés via un signal spectral (participation ratio intégré temporellement), un filtrage par motifs de tâche, et une ablation de groupe. Validée sur 51M à 7B paramètres, deux architectures, quatre pipelines. Découverte : circuit d'induction de 2-6 heads causalement nécessaire dans tous les modèles (94-100% de drop après ablation).

PapersRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security

Enquête complète sur la fiabilité des systèmes d'IA agentive (LLM augmentés de planification, outils, mémoire). Examine sécurité, robustesse, confidentialité et sécurité système. Propose métriques unifiées, benchmarks et stratégies d'atténuation par étape du workflow agent. Identifie défis ouverts : agents auto-évolutifs, vérification runtime, personnalisation préservant la confidentialité.

Agents IASécurité IABenchmarks
SIG
75
HYP
20
arXiv cs.CL·

Word Class Representations Spontaneously Emerge from Successor Representations Trained on Natural Language

Des chercheurs entraînent des réseaux de neurones sur WikiText-103 (103M tokens) en utilisant les Successor Representations (SR) du RL pour prédire les distributions de mots futurs. Sans supervision linguistique explicite, des catégories grammaticales (noms, verbes, adjectifs) émergent spontanément et deviennent séparables par clustering non supervisé, organisées selon l'horizon prédictif.

PapersRaisonnementEmbeddings
SIG
75
HYP
25
arXiv cs.CL·

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Un framework basé sur LLM extrait les divulgations de segments des formulaires 10-K pour améliorer la complétude et la comparabilité des données financières. Le système utilise RAG pour intégrer les informations entre plusieurs périodes et entreprises, démontrant son efficacité pour l'analyse longitudinale et l'alignement géographique cross-firm.

RAGBenchmarks
SIG
72
HYP
15
arXiv cs.LG·

Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning

Agent-ToM est un framework d'apprentissage pour surveiller les agents LLM autonomes via le raisonnement Theory-of-Mind. Il infère les croyances, intentions et déviations comportementales des agents pour détecter les comportements malveillants cachés. Évalué sur SHADE-Arena et CUA-SHADE-Arena, il surpasse les baselines d'ensemble tout en utilisant un pipeline de vérification à deux appels.

Agents IASécurité IARaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Rethinking Continual Anomaly Detection on the Edge: Benchmarking Under Realistic Industrial Conditions

Nouvel article arXiv proposant DINOSaur, méthode sans entraînement pour la détection d'anomalies continue en environnement industriel. Combine backbone DINOv3 gelé, mémoire coreset indexée spatialement et scoring d'anomalies restreint. Atteint zéro oubli, surpasse tous les baselines sur 5 protocoles, inférence <100ms sur Jetson Orin Nano avec adaptation on-device <30s.

BenchmarksVision
SIG
72
HYP
25
arXiv cs.LG·

Generative Representation Learning on Hyper-relational Knowledge Graphs via Masked Discrete Diffusion

KREPE, une méthode d'apprentissage génératif pour graphes de connaissances hyper-relationnels, utilise la diffusion discrète masquée pour générer des faits complets à partir de requêtes partiellement observées. Unifie prédiction de liens et génération de faits dans un seul cadre, surpassant les baselines LLM sur les benchmarks standard.

PapersBenchmarksRaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Iterative Refinement Neural Operators are Learned Fixed-Point Solvers: A Principled Approach to Spectral Bias Mitigation

IRNO (Iterative Refinement Neural Operator) améliore les opérateurs neuronaux en ajoutant un module d'affinement itératif basé sur la théorie des points fixes. Une perte spectrale progressive cible explicitement les erreurs haute fréquence. Résultats : 56% d'amélioration sur flux turbulent, réduction d'erreur de 1.48-2.04% en haute fréquence sur Active Matter.

PapersBenchmarksRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre de découverte scientifique en boucle fermée couplant génération d'hypothèses, sélection d'expériences et raffinement de mécanismes. Évalué sur ActiveSciBench (57 tâches de cinétique enzymatique, 45 réseaux de régulation génique), le système atteint 67,6% de précision symbolique et 2-5x meilleure efficacité d'échantillonnage que les baselines.

RaisonnementAgents IABenchmarks
SIG
82
HYP
25
arXiv cs.LG·

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

ChaosBench-Logic v2 est un benchmark de 40 886 questions évaluant le raisonnement logique de 14 LLM sur 165 systèmes dynamiques. Le protocole CARE révèle des défaillances critiques : le raisonnement sur les transitions de régime reste quasi-aléatoire (MCC=0.05), tandis que la déduction FOL atteint MCC=0.52. Qwen 2.5-32B surpasse les modèles propriétaires en diagnostics d'indicateurs.

BenchmarksRaisonnementQwen
SIG
82
HYP
15
arXiv cs.LG·

Riemannian Archetypal Analysis: Interpretable non-linear data analysis on deformed star distributions

Nouvelle approche d'analyse archétypale sur variétés riemanniennes avec géométrie pullback data-driven. Combine interprétabilité de l'analyse archétypale classique et flexibilité des modèles non-linéaires via distributions en étoile déformées. Tests sur MNIST montrent géodésiques significatives et projections de débruitage géométriquement conscientes.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Feature Lottery? A Bifurcation Theory of Concept Emergence

Théorie de bifurcation pour détecter en temps réel l'émergence de représentations structurées dans les réseaux de neurones. Un ratio dynamique β(t)/βc(t) basé sur la Hessienne de la perte prédit quatre régimes de transition distincts (SAE sur Pythia, SSL CIFAR, grokking arithmétique). À 5% de l'entraînement, la pureté précoce des atomes prédit la convergence finale avec 12x le baseline.

PapersRaisonnementFine-tuning
SIG
78
HYP
15
arXiv cs.LG·

A lift for input-convex neural network training

Nouvelle méthode d'entraînement pour les réseaux de neurones input-convexes (ICNN) via une hypernetwork non-contrainte qui émet les poids inter-couches. Approche inspirée des lifts de problèmes inverses, elle contourne les limitations du gradient descent projeté et de la reparamétrisation softplus. Résultats sur estimation de densités log-concaves et flots normalisants convexes montrent convergence améliorée.

PapersRaisonnementReinforcement learning
SIG
72
HYP
15
arXiv cs.LG·

Interdomain Attention: Beyond Token-Level Key-Value Memory

Interdomain Attention fusionne transformers et state space models via méthodes kernel : les features d'attention sont projetées sur des fonctions de base maintenues par un SSM, permettant une attention query-conditionnée sur état fixe. Sur FineWeb-Edu (125M-1.3B), surpasse les baselines softmax à 1.3B en perplexité et commonsense, avec comportement length-flat jusqu'à 3.5x le contexte d'entraînement.

RaisonnementBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

From Accuracy to Auditability: A Survey of Determinism in Financial AI Systems

Étude sur la reproductibilité des systèmes IA en finance réglementée (crédit, fraude, blanchiment). Identifie trois sources de non-déterminisme : variance des explications post-hoc (modèles tabulaires), échantillonnage stochastique (graphes), divergence batch-dépendante (LLM agents). Propose framework d'évaluation avec métriques RBO, D_cos, TDI, PSD pour audit.

ÉvaluationsSécurité IARégulation
SIG
72
HYP
15
arXiv cs.AI·

Why We Need World Models for AGI: Where LLMs Fail and How World Models May Outperform

Article arXiv argumentant que les LLM échouent en raisonnement causal et planification long-horizon faute de modèles du monde. Les auteurs introduisent Latent Dynamics Inference (LDI) et Flux, un environnement de raisonnement séquentiel en langage naturel. Agents RL avec accès à l'espace latent atteignent 79% de taux de victoire vs 11% pour LLM, révélant des défaillances en suivi d'état persistant.

RaisonnementReinforcement learningPapers
SIG
72
HYP
35
arXiv cs.AI·

EvoSci: A Bio-Inspired Multi-Agent Framework for the Evolution of Scientific Discovery

EvoSci est un framework multi-agent bio-inspiré pour la découverte scientifique utilisant des LLM. Il intègre évolution, graphes de connaissances et agents spécialisés (mentor, chercheur, reviewer) pour générer, évaluer et affiner itérativement des idées de recherche. Sur des sujets réels, EvoSci atteint un score peer-review ICLR de 4.90 et classement Top-10 de 54%.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
35
arXiv cs.AI·

A Dynamical Framework for Cognitive Processes Based on Transformations and Semantic Equivalence

Framework dynamique pour modéliser les processus cognitifs via systèmes de rétroaction. Les états cognitifs évoluent selon X_{t+1} = π(F(f(X_t))) où f décrit transformations internes, F mappages interprétatifs, π enforce équivalence sémantique. Formulation catégorique et analyse de stabilité par points fixes. Application linguistique : interprétation context-dépendante comme trajectoire vers classe sémantique stable.

RaisonnementPapers
SIG
35
HYP
15
arXiv cs.CL·

CSP-Atlas: Concept-Specific Neural Circuits in a Sparse Python Transformer

Une étude identifie 106 circuits neuronaux dédiés dans un transformateur sparse 8-couches entraîné sur du code Python. Les circuits se structurent selon des principes computationnels (atomicité, ambiguïté lexicale) plutôt que sémantiques. 62,5% des neurones les plus actifs aux couches intermédiaires sont concept-spécifiques pour les construits AST.

Génération de codeRaisonnementPapers
SIG
82
HYP
15
arXiv cs.LG·

LLMs Show No Signs Of Individuated Metacognition

Analyse de 20 LLMs frontier sur 6 benchmarks : la confiance exprimée par les modèles ne reflète pas leurs capacités individuelles. Décomposition par analyse factorielle tétrachorique révèle une matrice de confiance de rang quasi-un. Les modèles partagent un axe de difficulté commune et diffèrent surtout par leurs seuils de décision. Aucune preuve de métacognition individuée verbalisée significative.

ÉvaluationsBenchmarksRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

Low-Cost Labels, Reliable Choices: Rollout-Calibrated Hyper-Heuristics for Job Shop Scheduling

Hyper-heuristiques assistées par apprentissage pour le Job Shop Scheduling (JSSP). Le sélecteur proposé utilise des labels normalisés par regret, une estimation d'incertitude KNN contextuelle et une porte qui n'agit que si le gain prédit dépasse une marge ajustée. Réduit RPD moyen de Random-HH d'un ordre de magnitude sur instances synthétiques.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

EvoCode-Bench: Evaluating Coding Agents in Multi-Turn Iterative Interactions

EvoCode-Bench évalue 13 agents de codage sur 26 tâches avec 5-15 tours itératifs. Les agents doivent maintenir un codebase fonctionnel face à des changements de spécifications. Résultat : écart de 22-40 points entre performance single-round (SR) et multi-tour (MT@4), avec succès <50% en multi-tour et dégradation progressive (taux de réussite divisé par 2 au tour 5).

Génération de codeAgents IABenchmarks
SIG
82
HYP
15
arXiv cs.AI·

HyperGuide: Hyperbolic Guidance for Efficient Multi-Step Reasoning in Large Language Models

HyperGuide utilise la géométrie hyperbolique pour guider le raisonnement multi-étapes dans les LLM. Une tête légère projette les états cachés dans l'espace hyperbolique, où la distance à l'origine encode la proximité de la solution. Un adaptateur bas-rang est affiné interactivement. Gains constants sur plusieurs benchmarks, plus importants pour les chaînes de raisonnement profondes.

RaisonnementFine-tuning
SIG
75
HYP
15
arXiv cs.CL·

Distinguishing Right from Wrong in Debates: Attribution Analysis of Chinese Harmful Memes

Nouvel article arXiv sur la détection interprétable de mèmes nuisibles en chinois. Les auteurs créent Ex-ToxiCN-MM, premier dataset d'explications avec interprétations opposées (nuisible/non-nuisible), et C-HarmKB, base de connaissances culturelles chinoises. Ils proposent RIKE, framework d'analyse d'attribution avec modules AKE et RIR, surpassant les baselines. Code et données open-sourcés.

VisionSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Generating Legal Commentaries from Case Databases via Retrieval, Clustering, and Generation

Pipeline automatisé transformant 4.555 décisions du Tribunal fédéral allemand en commentaires juridiques. Extraction de chunks, résumé du raisonnement, embedding et clustering. LLMs génèrent titres et sections enrichies de citations, fusionnées en commentaires cohérents. Évaluation sur 5 dimensions (pertinence, fidélité des citations, distinction des clusters, ordre logique).

RAGGénération de codeÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Unveil est un framework d'embedding visual-textuel pour la récupération de documents multi-modaux. Il intègre features textuelles et visuelles via distillation de connaissance, transférant les capacités sémantiques d'un modèle visual-textuel vers un modèle purement visuel. Résultats : amélioration de la précision et de l'efficacité de retrieval sans parsing.

RAGEmbeddingsVision
SIG
72
HYP
25
arXiv cs.CL·

WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems

WhenLoss propose un protocole diagnostic pour identifier les goulots d'étranglement dans les systèmes de mémoire long-contexte. Expected Predictive Compression (EPC) utilise un LLM pour anticiper les questions futures et préserver les preuves minimales lors de l'écriture. Sur LongMemEval (500 questions), EPC atteint 0.49 en score CSM vs 0.44 pour le meilleur baseline, réduisant l'écart d'écriture à 0.04.

RAGRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Temporal Concept Drift in Legal Judgment Prediction: Neural Baselines Across Three Epochs of Ukrainian Court Decisions

Étude de la dérive temporelle en NLP juridique sur 428K décisions de cours ukrainiennes (2008-2026). Quatre modèles transformers (XLM-RoBERTa, variantes légales) montrent une dégradation sévère en transfert forward (−27,2 pp macro-F1) mais robustesse en backward transfer. L'apprentissage continu chronologique élimine l'oubli catastrophique.

BenchmarksFine-tuningPapers
SIG
78
HYP
15
arXiv cs.CL·

Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation

Méthode pour améliorer la cohérence des étiquetages automatisés en modération de contenu. Les auteurs proposent un workflow où une IA rédige des « constitutions » détaillées par catégorie (harcèlement, discours haineux, crime non-violent), puis un LLM frontier les interprète pour générer les étiquettes. Résultat : réduction de l'incohérence cross-modèle jusqu'à 57x vs définitions paragraphes.

ÉvaluationsSécurité IAAlignement
SIG
75
HYP
15
arXiv cs.CL·

Side-by-side Comparison Amplifies Dialect Bias in Language Models

Étude arXiv montrant que les modèles de langage amplifient les biais dialectaux (AAVE vs anglais standard) lors de comparaisons côte à côte de tweets, bien plus qu'en évaluation isolée. Le fine-tuning par équité contrefactuelle réduit partiellement le biais en isolation mais échoue en contexte contrastif, révélant une faille majeure des évaluations actuelles.

BenchmarksSécurité IAAlignement
SIG
78
HYP
25
arXiv cs.CL·

Teaching Through Analogies: A Modular Pipeline for Educational Analogy Generation

Pipeline modulaire pour générer des analogies éducatives en quatre étapes (source, sous-concepts, explication, évaluation). Évaluation de 12 LLMs sur deux datasets annotés (SCAR, ParallelPARC). Les sous-concepts améliorent la qualité des explications et la précision de la récupération. Claude Sonnet 4.6 aligne mieux avec les classements humains qu'avec les scores absolus.

ClaudePapersÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

Overcoming "Physics Shock" in Earth Observation A Heteroscedastic Uncertainty Framework for PINN-based Flood Inference

Un cadre PINN avec incertitude hétéroscédastique pour la cartographie des inondations à partir de données SAR. Le modèle Attention-Gated FNO-UNet intègre un protocole Warm-Start et modélise l'incertitude aléatoire pour éviter la divergence de gradient (« Physics Shock »). Sur Sen1Floods11 : +25% IoU vs baselines déterministes, avec bornes de confiance calibrées.

PapersRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

TUBE: Tangent Upper Bound on Evidence for Discrete Diffusion Language Models

TUBE est une borne supérieure variationnelle sur la log-vraisemblance pour les modèles de diffusion discrets. Contrairement aux ELBO existantes, TUBE admet un estimateur Monte Carlo sans biais et s'applique aux modèles de diffusion masqués, ARMs d'ordre quelconque et leurs variantes par blocs. Les expériences montrent que les modèles de diffusion restent strictement en dessous des ARMs en vraisemblance exacte.

PapersBenchmarksÉvaluations
SIG
75
HYP
15
arXiv cs.LG·

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Framework Verifiable Transformers convertissant circuits Transformer en propriétés vérifiables par solveur SMT. Extraction de circuits task-localisés et vérification formelle d'équivalence fonctionnelle, nécessité des arêtes, invariance et robustesse. Démonstration sur tâches symboliques et GPT-2 scale avec architecture SMT-représentable (Signed L1 BandNorm, sparsemax, LeakyReLU).

RaisonnementSécurité IAPapers
SIG
72
HYP
18
arXiv cs.CL·

Discovering Lexical Gaps Using Embeddings from Multilingual LLMs

Cadre automatisé pour détecter les lacunes lexicales (mots inexistants dans certaines langues) via embeddings de LLMs multilingues. Sur paires de traduction coréen-anglais, 4000 espaces d'embedding testés montrent que les mots lacunaires ont un alignement sémantique cross-lingue plus faible. Classifieurs logistiques atteignent AUC 0.81-0.76 et récupèrent 18/19 et 26/27 mots lacunaires.

EmbeddingsBenchmarksPapers
SIG
72
HYP
15
Reddit r/MachineLearning·

Aiki my local Wikipedia Retrieval-Augmented Generation system [R]

Aiki est un outil léger de RAG local permettant de discuter avec Wikipedia hors ligne. Il télécharge et segmente les articles Wikipedia, utilise un retriever TF-IDF + cosine similarity personnalisé, supporte l'expansion de requêtes via liens Wikipedia, et génération optionnelle de réponses par LLM. Dépendances minimales, exécution entièrement locale.

RAGRecherche vectorielleOpen source
SIG
45
HYP
25
Reddit r/LocalLLaMA·

Update on 12x32gb sxm v100 cluster / local AI for legal drafting

Un avocat partage son retour d'expérience sur un cluster de 12 V100-SXM2 32GB pour le traitement juridique local. Après avoir abandonné vLLM pour les modèles MoE (incompatibilité GPU Volta), il utilise llama.cpp avec des modèles comme Gemma-4-26B et Qwen3.5-122B. Les modèles denses sur V100 sont inefficaces (~20-28 tok/s) ; les MoE atteignent 50-113 tok/s en décodage sur contextes longs.

LlamaOpen sourceInfrastructure
SIG
72
HYP
15