Archives

juin 2026

503 articles

arXiv cs.CL·

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

AEyeDE propose une méthode de détection de texte généré par IA basée sur les matrices d'attention d'un modèle Transformer proxy. Un CNN léger apprend à distinguer les patterns d'attention entre texte humain et IA-généré. La méthode surpasse les baselines texte-seul et montre une robustesse en transfert cross-dataset et face aux perturbations orthographiques.

PapersSécurité IAÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

KG-Guard: Graph-Based Hallucination Detection for Knowledge Base Question Answering

KG-Guard détecte les hallucinations dans les systèmes de réponse à questions sur bases de connaissances (KBQA) en utilisant un graphe augmenté et un encodeur léger. Le modèle atteint F1 de 82.0–87.4 sur WebQSP/ComplexWebQuestions avec 305× moins de paramètres que les baselines, et améliore les performances KBQA de 13–14.5 points F1 en retour itératif.

RaisonnementÉvaluationsRAG
SIG
78
HYP
15
arXiv cs.LG·

Adversarially Robust Control of Conditional Value-at-Risk via Rockafellar-Uryasev Conformal Inference

Cadre en ligne sans hypothèse distributive pour contrôler la Conditional Value-at-Risk (CVaR) en environnements non-stationnaires et adversariels. Combine inférence conforme, apprentissage en ligne et représentation variationnelle de Rockafellar-Uryasev. Garanties de sécurité prouvées pour risques de queue non-linéaires. Applications : gestion de portefeuille et atténuation de toxicité LLM.

PapersSécurité IARaisonnement
SIG
72
HYP
15
arXiv cs.LG·

Rethinking the Role of Temperature in Large Language Model Distillation

Étude arXiv sur le rôle de la température dans la distillation de LLM. Les auteurs montrent que la divergence KL avant (FKL) surpasse la divergence KL inverse (RKL) à températures élevées, contrairement aux conclusions empiriques antérieures qui omettaient ce paramètre. La température enrichit FKL avec des signaux de tokens non-dominants tandis qu'elle rescale seulement les gradients RKL.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

FLaG: Fine-Grained Latent Grouping for Hallucination Detection

FLaG est un framework léger de détection d'hallucinations dans les LLM qui modélise la fiabilité via des groupes de preuves latentes. Utilisant un mécanisme de routage basé sur l'énergie et une agrégation log-marginale, il capture des patterns hétérogènes d'hallucinations sans modifier le modèle sous-jacent. Résultats SOTA sur plusieurs benchmarks avec transfert robuste entre datasets.

Sécurité IAÉvaluationsRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

When Softmax Fails at the Top: Extreme Value Corrections for InfoNCE

InfoNCE, l'objectif standard du contrastive learning, repose sur une hypothèse statistique mal alignée avec les embeddings normalisés modernes. Les auteurs proposent WEINCE, une modification simple utilisant la théorie des valeurs extrêmes et des statistiques batch en ligne pour corriger les logits softmax, sans paramètres supplémentaires. Améliorations consistantes sur 5 benchmarks vision.

PapersBenchmarksEmbeddings
SIG
72
HYP
15
arXiv cs.LG·

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

ARCA propose une nouvelle méthode d'attribution de crédit au niveau des tokens pour l'apprentissage par renforcement des LLM. Elle résout la dégénérescence des signaux intrinsèques (surprisal, entropy reduction, policy divergence) sous LoRA en mesurant directement les changements cachés de l'adaptateur via la norme L2 du résidu. Testée sur MATH/Qwen3-1.7B avec GRPO, ARCA évite la concentration pathologique des poids.

Reinforcement learningFine-tuningRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

Étude de la généralisation retardée (grokking) lors du pré-entraînement de modèles de langage. Via un cadre basé sur l'exposition et les paires minimales BLiMP, les auteurs observent une généralisation différée sur cinq phénomènes grammaticaux. Les vecteurs de concepts grammaticaux deviennent plus prédictifs après généralisation et occupent un sous-espace de dimension supérieure.

PapersRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

DraDDP est le premier dataset public multimodal pour l'analyse de structures de discours en dialogues multi-parties. Construit à partir de séries TV américaines, il contient 495 segments de dialogue (6 374 énoncés, 9.1 heures de vidéo). Les benchmarks montrent l'utilité des informations multimodales pour identifier les dépendances et types de relations entre énoncés.

VisionMulti-agentsBenchmarks
SIG
75
HYP
15
arXiv cs.CL·

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

DOPA, un framework de recherche de démonstrations, utilise un proxy OOD pour approximer le domaine cible inaccessible et guide la récupération de démonstrations pertinentes. Une contrainte de diversité basée sur la distance de Mahalanobis assure la variété des exemples sélectionnés. Résultats positifs sur plusieurs LLMs et tâches en contexte de distribution shift sévère.

Prompt engineeringBenchmarksPapers
SIG
72
HYP
18
arXiv cs.CL·

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).

Reinforcement learningRaisonnementFine-tuning
SIG
82
HYP
15
arXiv cs.CL·

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

SENSE améliore le décodage spéculatif basé sur la récupération en utilisant les états cachés du modèle cible pour l'alignement sémantique. Un module d'évaluation soft-gated valide l'équivalence sémantique plutôt que les formes de surface. Sur LLaMA et Qwen, SENSE atteint 4.09 longueur d'acceptation moyenne et 3.26x d'accélération.

LlamaQwenRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Système de génération d'humour pour SemEval-2026 Task-1 (MWAHAHA) utilisant une stratégie « générer-beaucoup → sélectionner-meilleur ». Génération de candidats diversifiés via prompting multi-étapes et ensemble de modèles, puis sélection via un modèle de préférence entraîné sur 2.5K jugements humains appariés. Classement 1er en anglais et chinois, 2e en espagnol.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
25
arXiv cs.CL·

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.

Sécurité IAÉvaluationsBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

DLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

PapersFine-tuningRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why

Étude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.

ÉvaluationsBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

RealityTest: How People Probe AI Identity and Whether Models Disclose It

RealityTest évalue si les systèmes IA divulguent leur identité quand interrogés. Benchmark multilingue et multimodal basé sur 3 152 requêtes collectées auprès de ~750 participants dans 49 pays, 5 langues (texte et voix). Résultats : 31% seulement posent la question directement ; une instruction de suppression réduit la divulgation sous 30% même pour les meilleurs modèles.

Sécurité IAÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Deliberative Curation: A Protocol for Multi-Agent Knowledge Bases

Protocole de gouvernance pour bases de connaissances multi-agents combinant cycle de vie formalisé, vote délibératif pondéré par réputation (Beta Reputation + EigenTrust) et sanctions graduées. Évaluation sur 100 agents, 7 archétypes comportementaux : 0.826 vs 0.791 de précision face à l'adversité modérée (p<0.001). Le masquage vote commit-reveal apporte +8.2-8.6pp.

Multi-agentsAgents IABenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Model-Based Quality Assessment for Massively Multilingual Parallel Data

Étude de l'évaluation automatique de données bilingues massives : décomposition en deux tâches (évaluation du parallélisme via embeddings multilingues, estimation de qualité sans référence). Benchmark de 4 modèles d'embeddings et 9 évaluateurs sur FLORES-200 couvrant 6 654 paires de langues. Résultat clé : aucun modèle n'est fiable universellement ; une approche direction-aware est nécessaire.

BenchmarksEmbeddingsÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learningAlignementÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

ProtStructQA: A Denotation Threshold in Protein Structural Reasoning

ProtStructQA est un benchmark exécutable pour la réponse à des questions sur les structures protéiques. 382.2K questions générées depuis un langage spécialisé caché, évaluées sur Qwen3 (0.6B–8B) et Gemma-3. Découverte clé : seuil de capacité entre Qwen3-1.7B et 4B où les modèles passent de l'incapacité à produire des dénotations exécutables à la maîtrise du raisonnement chaîné.

BenchmarksRaisonnementQwen
SIG
78
HYP
15
arXiv cs.AI·

Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems

Article académique proposant des autoencodeurs sensibles aux produits pour la détection d'anomalies dans les systèmes cyber-physiques multi-produits. Les modèles globaux traditionnels créent des « angles morts » où les attaques peuvent passer inaperçues. Tests sur Tennessee Eastman Process : le modèle produit-aware détecte 100% des scénarios d'attaque contre 22.2% pour le modèle global.

BenchmarksSécurité IAÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Étude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.

Prompt engineeringÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning

SelSkill, un framework d'apprentissage par préférence dual-granularité, optimise l'invocation sélective de compétences dans les tâches agentic. Sur ALFWorld avec Qwen3-8B : +10,9 pp de succès, +29,1 pp de précision. Sur BFCL : +5,7 pp de succès, +29,5 pp de précision. Transfère à zéro-shot sur Tau-bench et PopQA.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence

Étude théorique et empirique des limites de l'édition de paramètres dans les LLM. Les auteurs démontrent via l'hypothèse d'effondrement dimensionnel que les modifications localisées propagent des interférences globales dégradant les capacités du modèle. Les méthodes par récupération surpassent systématiquement l'édition paramétrique.

Fine-tuningRaisonnementPapers
SIG
78
HYP
15
arXiv cs.CL·

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

SPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
18
arXiv cs.AI·

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Article de position sur la robustesse post-résolution dans les moteurs de décision MILP. Identifie un écart : les solutions optimales nominales deviennent infaisables sous petites perturbations de coûts ou ressources. Propose une couche d'audit formalisée autour de la solution incumbente, combinant approximations certifiées, estimation probabiliste et vérification solver-backed.

BenchmarksPapersSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games

Benchmark d'évaluation du raisonnement interactif pour LLM basé sur 474 jeux exécutables. Les modèles reçoivent uniquement les règles, doivent interroger un environnement caché, intégrer observations partielles et décider quand répondre. Évalue robustesse contextuelle, adaptation métacognitive et efficacité d'interaction sur modèles frontier.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

AbaqusAgent est un framework multi-agents basé sur LLM pour l'analyse par éléments finis (FEA) en mécanique des solides. Composé de six agents (interpréteur, architecte, rédacteur, exécuteur, vérificateur, visualiseur), il convertit des instructions en langage naturel en analyses FEA exécutées avec Abaqus. Validé sur 50 problèmes avec 86% de succès.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.AI·

TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation

TIGER est une méthode d'inférence pour réduire les hallucinations dans la génération multimodale. Elle construit un graphe d'observations à partir de l'entrée et un graphe de claims à partir de la sortie, puis assigne des scores de risque basés sur le support et les conflits. Le modèle répare les claims à haut risque sans modifier le backbone. Convergence garantie avec réduction géométrique du risque.

RaisonnementVisionPapers
SIG
78
HYP
22
arXiv cs.LG·

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Les réseaux de tenseurs non-linéaires automatiquement différentiables (ADNTNs) compressent les poids de réseaux de neurones via des tenseurs cœurs entraînés par différenciation automatique. Testés sur AlexNet et VGG-16, ils atteignent des ratios de compression de 2000× à 77000× par couche avec précision préservée ou améliorée.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Closed-Loop Neural Activation Control in Vision-Language-Action Models

CTRL-STEER propose un cadre de contrôle en boucle fermée pour les modèles Vision-Language-Action (VLA). Au lieu d'utiliser un coefficient de direction fixe, la méthode adapte dynamiquement la force d'intervention via des contrôleurs PID ou par apprentissage par renforcement. Tests sur OpenVLA et LIBERO montrent une meilleure stabilité et un meilleur compromis entre direction et succès de tâche.

VisionAgents IAReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

FETCH, un classifier pour le triage juridique automatisé, génère des questions de suivi via un ensemble économique de LLMs. L'étude montre que les modèles bon marché performent bien en classification, mais la génération de questions en langage clair de qualité requiert GPT-4 ou supérieur. Le prompt engineering seul ne suffit pas ; les évaluations LLM-as-judge divergent des évaluations humaines.

GPTOpenAIPrompt engineering
SIG
72
HYP
15
arXiv cs.AI·

Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture

Papier de synthèse proposant l'Intelligent Computing Architecture Model (ICAM), un cadre à 6 couches pour l'informatique model-native. Mappe les concepts d'architecture informatique classique aux systèmes LLM (gestion de cache, contexte, agents). Introduit trois lois de conception : Semantic Locality Law, Context Budget Law, Agent Speedup Law. Distingue plan d'exécution probabiliste et plan de contrôle déterministe.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

Parameter Alignment Mitigates Catastrophic Forgetting in Multilingual Expert Language Models

Étude sur la prévention de l'oubli catastrophique lors de l'entraînement continu de modèles de langage multilingues. Les auteurs proposent cinq stratégies d'alignement des paramètres (gel de couches, régularisation, reversion post-hoc, fusion de modèles) testées sur 32 langues et quatre axes d'évaluation. L'alignement réduit significativement l'oubli des capacités existantes.

Fine-tuningPapersBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary

Les modèles decoder-only atteignent une limite informatique dans les tâches de suivi d'état déterministe au-delà d'un horizon d'~25 étapes. Un théorème borne la capacité d'attention à O(H·log(L/H)·√dh). Sur 12 modèles et 8 domaines (SWE-Bench, WebArena, SQL), la délégation à des outils atteint 86-94% vs 24-42% pour le raisonnement neural pur. Fine-tuning n'améliore que <5%, confirmant un plafond architectural.

RaisonnementAgents IABenchmarks
SIG
78
HYP
25
arXiv cs.AI·

VESTA: Visual Exploration with Statistical Tool Agents

VESTA est un framework d'agents statistiques équipant les VLMs d'une boîte à outils exploratoire dynamique pour affiner les modèles quantitatifs. Évalué sur DAWN (benchmark de modélisation de distributions et séries temporelles), VESTA surpasse les systèmes antérieurs, notamment sur tâches complexes en astronomie (fonctions de masse initiale, signaux d'ondes gravitationnelles).

Agents IAVisionRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learningVisionGénération de code
SIG
78
HYP
15
arXiv cs.AI·

TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding

TAPS propose une méthode de sélection de préfixes consciente de la cible pour le décodage spéculatif avec diffusion. En convertissant les marginales de diffusion en estimations d'acceptation conditionnées au chemin, TAPS sélectionne un sous-arbre compact sous budget de vérification fixe. Résultats : 7.9x speedup sans perte vs décodage autorégressif vanilla, 1.36x et 1.74x vs DFlash et DDTree.

Génération de codeRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Threshold-Based Exclusive Batching for LLM Inference

Article arXiv sur l'optimisation du batching pour l'inférence LLM. Les auteurs montrent que le mixed batching (MB) n'est pas toujours optimal : sur GPUs à bande passante limitée (RTX PRO 6000), le batching exclusif (EB) surpasse MB de 41,9% en débit. Ils proposent EB+, un scheduler hybride qui bascule dynamiquement entre EB et MB selon la bande passante GPU et la composition de la charge.

InfrastructureBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

KACE: Knowledge-Adaptive Context Engineering for Mathematical Reasoning

KACE sépare stockage et utilisation du contexte pour le raisonnement mathématique. Un arbre épistémique stratifié par difficulté et domaine est construit hors ligne via boucle d'auto-réflexion. À l'évaluation, l'auto-cohérence hiérarchisée classe dynamiquement les problèmes et récupère sélectivement les cartes pertinentes. Sur AIME 2025 : 62,2% de précision (+10,4 points vs Best-of-5).

RaisonnementPrompt engineeringBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Des chercheurs montrent que les traces de raisonnement cachées des LLM peuvent être extraites via Reasoning Exposure Prompting (REP), une méthode de prompting légère utilisant des démonstrations générées par modèles fantômes. REP expose les traces internes même quand les systèmes déployés les masquent intentionnellement, préservant les signaux de raisonnement utiles pour la distillation.

RaisonnementPrompt engineeringFine-tuning
SIG
75
HYP
35
arXiv cs.LG·

RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting

RAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.

Fine-tuningReinforcement learningPapers
SIG
78
HYP
15
arXiv cs.LG·

Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection

Nouvelle approche pour détecter la dépression majeure à partir d'EEG sans augmentation de données. La méthode SGC (Score-Guided Classification) utilise un réseau génératif non supervisé pour modéliser les anomalies pathologiques comme prior, fusionné avec les représentations profondes. Un module d'adaptation spatiale gère l'hétérogénéité des canaux multi-centres. Validation sur Mumtaz2016 et MODMA.

PapersÉvaluationsVision
SIG
72
HYP
28
arXiv cs.LG·

AI-Guided Design and Optimization of Graphite-Based Anodes via Iterative Experimental Feedback

Workflow IA itératif pour optimiser les anodes en graphite via apprentissage séquentiel et retours expérimentaux. Plateforme Citrine utilisée pour générer modèles de substitution et affiner contraintes de faisabilité. Résultats : fiabilité de fabrication passée de défaillances fréquentes à 100%, capacité ≥350 mAh/g augmentée de 28,4% à 84,8%, rétention de capacité de 42,1% à 97,3%.

Reinforcement learningBenchmarksOutils
SIG
75
HYP
15
arXiv cs.LG·

Learning to Construct Practical Agentic Systems

Papier arXiv proposant des approches pour concevoir des systèmes agentic LLM pratiques. Framework avec « pseudo-tools » appelant récursivement les LLM sur contexte restreint. Les workflows fixes hand-engineered sont moins chers et plus précis que les workflows planifiés dynamiquement. Méthodes d'apprentissage pour optimiser pseudo-tools et workflows fixes, surpassant les agents hand-engineered.

Agents IAMulti-agentsRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks

Étude théorique des taux d'apprentissage optimaux dans les réseaux de neurones linéaires à 2-3 couches. Dérivation de formules fermées exactes pour les gradients et la perte après 1-2 étapes de descente de gradient. Résultat clé : les taux d'apprentissage inégaux minimisent la perte en phase initiale, tandis que les taux égaux deviennent optimaux après. Code disponible.

PapersReinforcement learning
SIG
75
HYP
15
arXiv cs.LG·

Large-scale Uncertainty Quantification for Latent Variable Models Using Subsampling Markov Chain Monte Carlo

Théorie asymptotique pour SGLD-Gibbs, combinant dynamique de Langevin stochastique et mises à jour Gibbs pour l'inférence bayésienne dans les modèles à variables latentes. Les auteurs dérivent des limites de diffusion-saut et proposent un guide de tuning d'hyperparamètres garantissant une quantification d'incertitude statistiquement valide.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

InfoAtlas: A Foundation Model for Zero-Shot Statistical Dependence Estimate

InfoAtlas est un modèle fondation capable d'estimer l'information mutuelle entre variables haute-dimensionnelles en une seule passe forward, sans optimisation itérative. Préentraîné sur données synthétiques, il atteint 100× d'accélération par rapport aux estimateurs neuraux classiques tout en maintenant la précision et généralise à des scénarios réels complexes.

PapersBenchmarksRaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

Accurate Large-sample Uncertainty Quantification using Stochastic Gradient Markov Chain Monte Carlo

Nouvel article arXiv proposant des approximations discrètes pour SG(L)D avec et sans momentum, permettant des prédictions précises de la covariance stationnaire et du temps d'autocorrélation intégré. Bornes d'erreur non-asymptotiques pour l'ajustement pratique et la quantification d'incertitude, validées sur modèles mal spécifiés et grands batch sizes.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design

PROBE, un framework d'optimisation pour agents LLM en conception de médicaments, résout le conflit entre affinité de liaison et druggabilité. Via probing d'édits contrôlés et une site map spécifique à la poche, il guide une boucle multi-agent (affinité, druggabilité, co-optimisation) sur CrossDocked2020 avec résultats SOTA.

Agents IAMulti-agentsRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

Acting with AI: An Interaction-Based Framework for Agentic Tort Liability

Un cadre juridique pour la responsabilité civile des systèmes IA agentiques. L'article propose trois catégories d'interaction (dérive autonome, outil pur, planification collaborative) et utilise les logs d'interaction comme preuve pour déterminer où la responsabilité s'attache. Introduit un standard « Agent Raisonnable » basé sur la vérification de contraintes et la traçabilité.

Agents IARégulationSécurité IA
SIG
72
HYP
15
arXiv cs.LG·

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

La quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).

RaisonnementFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Méthode OPCD pour améliorer les grands modèles via critiques faibles. Au lieu d'utiliser des superviseurs faibles comme annotateurs, on les emploie comme critiques pour guider les révisions. La distillation progressive filtre les critiques de qualité et les intègre au modèle fort via signaux d'auto-enseignement adaptatifs. Résultats sur benchmarks de raisonnement et alignement.

RaisonnementAlignementReinforcement learning
SIG
72
HYP
25
arXiv cs.LG·

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

FoLoRA, un framework d'optimisation conscient de l'oubli, adapte les modèles de fondation via quotient de Rayleigh généralisé. Il équilibre performance sur tâche cible et préservation des capacités préentraînées en pénalisant les directions d'adaptation à faible utilité relative à l'oubli. Testé sur adaptation mathématique, code et suivi d'instructions.

Fine-tuningPapersAlignement
SIG
72
HYP
15
arXiv cs.AI·

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Preference Delta Aggregation (PDA) agrège des signaux de préférence faibles issus de paires de modèles (ex: Qwen3 4B vs 1.7B) via fusion de LoRA. Geometric Alignment Merging (GAM) aligne les sous-espaces d'adaptateurs avant agrégation. Sur benchmarks de raisonnement et recherche agentique, PDA+GAM améliore Qwen3 8B de +6,8 et +7,3 points respectivement.

QwenFine-tuningReinforcement learning
SIG
78
HYP
25
arXiv cs.LG·

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Étude de l'efficacité et l'efficience du tool-calling dans les agents LLM. Les auteurs montrent que les pipelines d'évaluation sont sensibles à des choix mineurs (seed, prompt système, templates multi-tours) affectant la fiabilité des classements. Ils identifient deux sources de gaspillage computationnel en RL et proposent deux techniques d'accélération sans dégradation de performance.

Agents IAReinforcement learningÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

From Noise to Control: Parameterized Diffusion Policies

Parameterized Diffusion Policy (PDP) conditionne les politiques de diffusion sur des paramètres continus dans une variété de comportements apprise. Cette approche permet l'interpolation fluide entre stratégies et l'adaptation efficace à de nouvelles contraintes sans mise à jour des poids. Résultats améliorés sur benchmarks multimodaux en simulation et robots réels.

RobotiqueReinforcement learningPapers
SIG
72
HYP
25
arXiv cs.AI·

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learningAlignementÉvaluations
SIG
78
HYP
22
arXiv cs.AI·

MindZero: Learning Online Mental Reasoning With Zero Annotations

MindZero est un framework d'apprentissage par renforcement auto-supervisé qui entraîne des modèles multimodaux (MLLMs) à inférer les états mentaux humains sans annotations. Le modèle est récompensé pour générer des hypothèses d'états mentaux maximisant la vraisemblance des actions observées. Après entraînement, l'inférence devient rapide et surpasse les méthodes basées sur des planificateurs.

RaisonnementReinforcement learningAgents IA
SIG
72
HYP
25
arXiv cs.AI·

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

CAST est une méthode d'auto-distillation sans réponse de référence pour GRPO (Group Relative Policy Optimization). Elle utilise un auto-enseignant sans gradient pour façonner les avantages au niveau des tokens selon la correction des trajectoires, avec inversion bidirectionnelle des signaux et avantages bornés pour les groupes à variance zéro. Améliore le raisonnement mathématique.

Reinforcement learningRaisonnementGénération de code
SIG
72
HYP
18