Page 61 sur 192

ToutHaut signalRécent

7679 articles

Revisiting LLM Adaptation for 3D CT Report Generation: A Study of Scaling and Diagnostic Priors

Étude d'adaptation d'LLM pour la génération de rapports CT 3D en imagerie médicale. RAD3D-Prefix, un framework léger basé sur des priors diagnostiques, intègre embeddings d'images et logits de classification multi-label. Sur LLMs de 96.1M à 1.6B paramètres, geler le modèle et entraîner uniquement des couches de projection surpasse le fine-tuning complet, réduisant l'hallucination clinique et l'overfitting.

Fine-tuning Vision

SIG

HYP

arXiv cs.CL·17 juin

MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

MemSlides propose un framework d'agent avec mémoire hiérarchique pour générer des présentations personnalisées. Le système sépare mémoire long-terme (profils utilisateur, outils) et mémoire de travail (préférences actives), permettant révisions multi-tours localisées sans régénérer le deck complet.

Agents IA Prompt engineering Outils

SIG

HYP

arXiv cs.AI·17 juin

Structural Preservation and the Logical Expressiveness of Graph Neural Networks

Article théorique établissant des correspondances entre classes de GNN et fragments de logique modale graduée. Les auteurs caractérisent l'expressivité logique de GNN préservant des propriétés structurelles (plongements, homomorphismes injectifs, homomorphismes) via des fragments spécifiques de logique modale existentielle.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

Shattering the Autoregressive Curse: Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning for LLMs

E³RL, une méthode de reinforcement learning, résout le problème de propagation d'erreurs en raisonnement long-horizon des LLMs. En utilisant l'entropie croisée autoregressive comme signal d'incertitude épistémique, le modèle peut corriger localement les défauts logiques et réutiliser le cache KV. Sur AIME, les modèles 4B et 8B surpassent l'état de l'art de 5,3% et 6,5%.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

SkillMigrator est un agent LLM qui apprend des compétences web réutilisables en les transférant entre sites via la correspondance de structure de mise en page plutôt que de références d'éléments spécifiques. Les compétences induites sont stockées comme des motifs d'interaction transférables (TIP). Sur WebArena et Mind2Web, SkillMigrator réduit le nombre d'actions LLM de 8-10% à taux de succès équivalent.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness

FinAcumen est un agent de raisonnement financier multimodal qui accumule l'expérience des trajectoires antérieures dans une mémoire persistante. Le système améliore un modèle vision-langage 8B gelé sur quatre benchmarks financiers en utilisant l'activation sélective d'expériences et un environnement d'outils déterministe pour le calcul numérique et la vérification.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·17 juin

LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline

Pipeline d'évaluation automatisée ancrée dans les programmes scolaires officiels. Utilise des LLM pour noter les réponses d'examen en s'appuyant sur des artefacts curriculaires (syllabus, descripteurs de performance, guides de notation). Résultats comparables aux tuteurs humains avec meilleure traçabilité vers les standards officiels.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Examining the Limits of Word2Vec with Toki Pona

Étude de Word2Vec sur Toki Pona, langue construite de ~130 mots. Entraînement sur 1,4M phrases (7,95M tokens). Comparaison de deux modèles : avec et sans tokens non-Toki Pona (noms propres, emprunts). Résultat : les tokens rares rapprochent les mots similaires ; Word2Vec fonctionne même avec vocabulaire extrêmement réduit, grâce aux patterns distributionnels.

Embeddings Papers Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

A Machine-Learned Comorbidity Index

Nouvel indice de comorbidité basé sur machine learning (MLCI) qui mappe les codes de diagnostic à un score unique en maximisant le critère nHSIC sur plusieurs résultats cliniques. Contrairement aux indices traditionnels (Charlson, Elixhauser), MLCI capture les relations non-linéaires risque-résultat et surpasse les baselines sur plusieurs datasets EHR.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·17 juin

Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation

Système IA d'aide à la décision clinique utilisant des jumeaux numériques (Digital Twin), l'estimation des effets de traitement et l'apprentissage par renforcement pour recommander des traitements adaptatifs en temps réel. Validation sur données synthétiques et dataset ovarian cancer TCGA. Module de sécurité basé sur règles avec escalade clinicienne pour cas d'incertitude.

Reinforcement learning Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval

Un agent LLM auto-évolutif génère itérativement des règles de réécriture de requêtes pour améliorer BM25 en récupération de cas juridiques. Testé sur LeCaRD-v2 (benchmark chinois), le framework surpasse les baselines sans entraînement paramétrique, en exploitant l'évaluation automatique et l'élimination de règles inefficaces.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Geometry-Aware Post-Hoc Uncertainty Quantification in Operator Learning

REEF-GP, un cadre post-hoc pour la quantification d'incertitude dans les opérateurs neuronaux, adapte les représentations intrinsèques de l'opérateur pour construire des incertitudes conscientes de la géométrie. Testé sur 5 benchmarks PDE, il préserve la précision prédictive tout en fournissant des estimations d'incertitude calibrées, plus efficace que les ensembles profonds.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Algorithme d'apprentissage en ligne pour sélectionner dynamiquement le meilleur LLM dans des systèmes edge-cloud sous contraintes de budget (coût, latence). Formulation en bandit stochastique contraint avec demande variable. Garanties théoriques : regret sublinéaire et violations de contraintes sublinéaires.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

PromptMN: Pseudo Prompting Language

PromptMN est un langage de domaine spécialisé qui structure les prompts naturels avec des directives typées préfixées par % (rôles, objectifs, contraintes, sorties). Testé sur Claude Opus 4.8, Gemini 3.1 Pro et GPT-5.5 sans fine-tuning, il réduit les ambiguïtés contextuelles dans les workflows d'agents et de développement logiciel.

Prompt engineering Agents IA Outils

SIG

HYP

arXiv cs.CL·17 juin

From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities

Étude de 4 434 posts et 50 338 commentaires sur Moltbook montrant que les indices de relations parasociales (langage d'intimité, offres de réciprocité, auto-identification) persistent dans les communautés d'agents IA autonomes. Les résultats, validés par keyword matching et annotation LLM, révèlent une association forte entre ces signaux et la ré-engagement de l'auteur original.

Agents IA Multi-agents Papers

SIG

HYP

arXiv cs.CL·17 juin

Self-Generated Error Training for Token Editing in Diffusion Language Models

Méthode d'entraînement pour améliorer l'édition de tokens dans les modèles de diffusion (LLaDA2.1). Résout le décalage entre l'entraînement sur corruptions aléatoires et l'inférence sur erreurs du modèle lui-même. Utilise une passe sans gradient suivie d'une supervision sur corruptions auto-générées via LoRA. Réduit l'intensité d'édition et les erreurs de transcription.

Génération de code Fine-tuning Raisonnement

SIG

HYP

arXiv cs.LG·17 juin

Sum-of-Squares Degree Barriers for the Reweighted-Hinge Method in Robust Halfspace Learning: A Christoffel-Function Characterization

Article théorique sur les barrières de degré Sum-of-Squares pour l'apprentissage robuste de demi-espaces avec bruit malveillant. La fonction de Christoffel caractérise exactement la corruption qu'un certificat de degré borné ne peut pas éliminer. Démontre un compromis marge-degré et un algorithme de degré-2t atteignant la frontière η^(1-1/2t).

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

Speaking in Self-Assessing Tongues: On the Verbalized Confidence of LLMs in Machine Translation

Étude de la fiabilité de la confiance verbalisée des LLM en traduction automatique. Cinq méthodes d'extraction de confiance par token sans accès aux signaux internes sont comparées aux probabilités prédites. Résultats : performance similaire pour la détection d'erreurs et la calibration, mais faible corrélation entre méthodes internes et verbalisées.

Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task

Le groupe MLLP-VRAIN participe à IWSLT 2026 en traduction simultanée parole-parole avec Parakeet et Qwen 3.5. Système en cascade utilisant des politiques adaptatives et RAG pour enrichir la génération. Amélioration de +5.82 XCOMET-XL sur En→De vs année précédente.

Qwen RAG Génération de code

SIG

HYP

arXiv cs.CL·17 juin

Are you speaking my languages? On spoken language adherence in multimodal LLMs

Les LLM pour la reconnaissance vocale multilingue confondent souvent la langue de sortie. Les auteurs proposent trois stratégies : prompting zéro-shot, fine-tuning supervisé et raisonnement Chain-of-Thought pour améliorer l'adhérence linguistique sans contraindre strictement la sortie ni perdre les capacités de code-switching.

Voix Prompt engineering Fine-tuning

SIG

HYP

arXiv cs.LG·17 juin

Uncertainty Quantification of Engineering Structures by Polynomial Chaos Expansion and Multivariate Active Learning

Méthode d'échantillonnage adaptatif séquentiel pour construire des modèles de substitution par expansion en chaos polynomial, optimisée pour plusieurs quantités d'intérêt simultanées. L'approche équilibre exploration de l'espace d'entrée et exploitation de la variance agrégée, améliorant la précision et la stabilité des surrogates par rapport à l'échantillonnage Latin Hypercube.

Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·17 juin

Do Large Language Models Always Tell The Same Stories?

Étude comparative de la diversité narrative entre 10 LLMs et auteurs humains via r/WritingPrompts. Les modèles génèrent des histoires significativement plus similaires entre elles que les textes humains, convergeant vers une narrative générique moyenne. Temperature scaling et negative prompting ne réduisent pas cette homogénéité.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

Deux études récentes tirent des conclusions contradictoires sur la capacité des LVLMs à coordonner des expressions référentielles efficaces. Cette recherche contrôle les différences de tâches et compare directement les styles de prompting. Les modèles coordonnent efficacement avec un prompting explicite, mais échouent à inférer le besoin d'efficacité communicative avec un prompting implicite.

Prompt engineering Vision Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Rethinking Groups in Critic-Free RLVR

Article arXiv sur l'apprentissage par renforcement sans critique pour les LLM. Les auteurs remettent en question le rôle des « groupes » de rollouts dans les méthodes existantes et proposent le « negative token filtering » pour permettre un entraînement stable avec un seul rollout, améliorant les performances sur les tâches d'agents.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Second-Order Bias of LLMs Through Epistemic Entitlement

Étude d'un biais de second ordre chez les LLMs : comment les modèles jugent les contenus biaisés, au-delà de leur génération. Basée sur l'épistémologie de l'entitlement, la méthode évalue si les LLMs infèrent correctement les démographies sans justification suffisante. Résultats : biais systématique selon les groupes ciblés, contournement des garde-fous, persistance des déclencheurs démographiques.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Large Language Models Abilities for Addressee, Turn-change, and Next Speaker Prediction in Meetings

Étude comparative des capacités des LLM pour prédire le locuteur suivant, les changements de tour et l'adressataire dans des conversations multi-parties. Sur le corpus AMI, les LLM surpassent les modèles supervisés et les humains en prédiction du locuteur suivant sans accès audio-visuel. Les MM-LLM dépassent les LLM textuels mais restent sous la performance humaine pour l'adressataire et les changements de tour.

Benchmarks Évaluations Vision

SIG

HYP

arXiv cs.LG·17 juin

Multi-Adapter PPO: A Cross-Attention Enhanced Wavelength Selection Framework for LIBS Quantitative Analysis

Framework Multi-Adapter PPO pour la sélection de longueurs d'onde en spectroscopie LIBS. Utilise RL avec mécanismes cross-attention et adaptateurs spécialisés. Surpasse PSO de 28,4% en score global et 45,2% en précision sur données acier/charbon. Code et dataset publiés.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

OPD-Evolver est un framework de co-évolution lent-rapide qui cultive des agents auto-évolutifs via auto-distillation on-policy. Le système gère une hiérarchie mémoire à quatre niveaux pour lire, utiliser, écrire et maintenir l'expérience. Sur benchmarks multi-domaines, OPD-Evolver surpasse ReasoningBank (+11.5%) et Skill0 (+5.8%), avec OPD-Evolver-9B rivalisant avec Qwen3.5-397B et Step-3.5-Flash.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·17 juin

From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Framework LLM-as-Environment-Engineer : le modèle de politique analyse ses trajectoires d'échec et propose des modifications à la configuration d'entraînement RL pour l'étape suivante. Testbed MAPF-FrozenLake avec configurations multi-dimensionnelles. Qwen3-4B surpasse GPT et Gemini sur les benchmarks proposés.

Reinforcement learning Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

Étude sur le fine-tuning bilingue pour la reconnaissance vocale en langues peu dotées. Évaluation sur 9 paires linguistiques avec tokens d'identification de langue en entrée. Résultat : le fine-tuning bilingue améliore les performances quand l'identification de langue est précise ; fournir le token à l'inférence compense les erreurs d'identification.

Voix Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Perron--Frobenius Operator Matching for Generative Modeling

PFOM (Perron-Frobenius Operator Matching) est un cadre génératif unifiant les modèles de flux, diffusion et sauts via l'opérateur PF intégral. Les auteurs prouvent que seule la divergence KL préserve l'égalité entre objectifs au niveau densité et échantillons. Entraînement Nesterov-accéléré et sampling stabilisent la discrétisation.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Learning task-specific subspaces via interventional post-training of speech foundation models

Méthode de post-entraînement pour les modèles de fondation vocale via apprentissage contrastif interventionnel. Transforme les représentations enchevêtrées en sous-espaces séparés (contenu/locuteur) en utilisant un dataset interventionnel et une perte contrastive multi-parties. Améliore la vérification de locuteur hors-domaine et la détection de mots-clés.

Voix Fine-tuning Papers

SIG

HYP

arXiv cs.CL·17 juin

Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

Fine-tuning de Qwen3.5-27B pour prédire les scores PHQ-9 (dépression) directement à partir de transcriptions de conversations avec une application IA de santé mentale. 6 283 utilisateurs (3 111 labels + pseudolabels Claude Opus). Performance : MAE=2.6, RMSE=4.0, r=0.80, AUC=0.91 au seuil clinique PHQ-9≥10.

Fine-tuning Raisonnement Qwen

SIG

HYP

arXiv cs.CL·17 juin

VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic Termination

VoidPadding introduit un token [VOID] dédié au padding dans les modèles de diffusion masqués (MDLMs), libérant [EOS] pour la terminaison sémantique. Sur Dream-7B-Instruct, cela améliore les benchmarks de raisonnement mathématique et génération de code de +17.84 points vs baseline et +6.95 vs RainbowPadding, réduisant les NFE de 55.7%.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

The Critical Role of Model Selection in Causal Inference: A Comparative Analysis of Classification Models within the InferBERT Framework for Pharmacovigilance

InferBERT combine transformers et Do-calculus pour détecter les effets indésirables causaux en pharmacovigilance. Étude comparative sur AILF et TRAM : BioBERT surpasse XGBoost, ALBERT et Med-LLaMA. Conclusion : le pré-entraînement spécialisé (biomedical) prime sur la taille du modèle.

Benchmarks Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Towards Fast GNN Surrogates for CO2 Migration in Complex Geological Formations

Surrogate GNN pour prédire la migration de CO₂ en formations géologiques complexes. Modèle entraîné sur le benchmark SPE11A avec mécanisme de passage de messages anisotrope capturant le transport directionnel. Produit des prévisions compétitives de saturation gazeuse et densité de phase liquide sur horizons de prévision étendus.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Counterfactual Optimization of Baseball Pitch Sequences and Estimation of Its Impact on Season-Level Statistics

Étude arXiv utilisant un modèle Transformer sur données MLB Statcast pour optimiser les séquences de lancers au baseball. Analyses contrefactuelles montrant que l'optimisation des lancers finaux et préparatoires peut améliorer les statistiques saisonnières de plus de 1.0 K/9. Insights pratiques sur les emplacements efficaces par bande de vélocité et l'importance du contrôle.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

MM++: Unsupervised Scale-Invariant Multilayer OOD Detection via Top-K Gated Feature Fusion

MM++ est une méthode non-supervisée et post-hoc pour la détection d'anomalies (OOD). Elle fusionne les couches intermédiaires sélectionnées par entropie avec la représentation finale via une matrice de covariance régularisée (Ledoit-Wolf), sans données auxiliaires ni modification architecturale.

Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Discrete Autoregressive Transformer for Generative Mechanism Synthesis

Transformer autorégressif discret pour la synthèse de mécanismes. Modèle de séquence conditionnelle avec VAE latent et quantization de coordonnées en tokens. Entraîné sur >1M mécanismes avec distance Chamfer et DTW. Distance Chamfer moyenne 0.0132, DTW 0.153 sur tests.

Génération de code Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Amortized Probabilistic Retrieval of Atmospheric CO2 from OCO-2 Spectra Using Deep Learning with Laplace Approximations and Normalizing Flows

Framework deep learning pour estimer le CO2 atmosphérique à partir des spectres OCO-2 de la NASA. Utilise approximations de Laplace et normalizing flows pour quantifier les incertitudes. Inférence 100× plus rapide que les algorithmes opérationnels, avec meilleure calibration des posteriors non-gaussiens.

Benchmarks Papers

SIG

HYP