Page 65 sur 147

ToutHaut signalRécent
5877 articles
arXiv cs.AI·

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Learn-by-Wire Guard (LBW-Guard) est une couche de gouvernance autonome qui supervise l'optimiseur AdamW pendant l'entraînement de modèles de langage. Testé sur Qwen2.5-7B avec WikiText-103, LBW-Guard réduit la perplexité finale de 13.21 à 10.74 (−18.7%) et accélère l'entraînement de 1.10×. Sous stress de learning-rate extrême (LR=3e-3), AdamW échoue (perplexité 1885.24) tandis que LBW-Guard reste stable (11.57).

QwenReinforcement learningBenchmarks
SIG
72
HYP
25
arXiv cs.CL·

EmbGen: Teaching with Reassembled Corpora

EmbGen est un pipeline de génération de données synthétiques qui décompose un corpus en paires entité-description, les réassemble via similarité d'embeddings, puis génère des paires QA avec sampling par proximité et clusters spécialisés. Sur trois datasets, EmbGen améliore la précision binaire de 12,5% (5M tokens) à 88,9% (20M tokens) sur le dataset le plus hétérogène comparé aux baselines.

Fine-tuningRAGEmbeddings
SIG
72
HYP
18
arXiv cs.LG·

VCR: Learning Valid Contextual Representation for Incomplete Wearable Signals

VCR est un framework auto-supervisé pour l'apprentissage de représentations robustes à partir de capteurs portables incomplets. Il utilise un tokenizer orthogonal pour séparer les sémantiques partagées des résidus spécifiques à chaque modalité, et un backbone mixture-of-experts conscient des absences. VCR améliore les performances en santé numérique même avec modalités manquantes simples ou multiples.

PapersEmbeddingsReinforcement learning
SIG
72
HYP
18
arXiv cs.CL·

A Multi-Agent Framework for Feature-Constrained Difficulty Control in Reading Comprehension Item Generation

MAFIG, un framework multi-agent, utilise plusieurs agents LLM et des évaluateurs spécialisés pour générer des items de compréhension de lecture avec contrôle de difficulté robuste. La méthode construit des séquences de contraintes de features produisant une difficulté monotoniquement croissante, surpassant les approches single-agent existantes.

Multi-agentsAgents IAGénération de code
SIG
72
HYP
18
arXiv cs.AI·

Discoverable Agent Knowledge -- A Formal Framework for Agentic KG Affordances (Extended Version)

Framework formel pour décrire les capacités des graphes de connaissances vis-à-vis des agents. Étend les standards VoID/DCAT avec l'Agentic Affordance Profile (AAP) pour spécifier ce qu'un agent peut prouver, les hypothèses de fermeture et l'alignement vocabulaire. Identifie les divergences entre schéma et régime d'inférence comme source d'échecs épistémiques.

Agents IARAGPapers
SIG
72
HYP
15
arXiv cs.CL·

Are Rationales Necessary and Sufficient? Tuning LLMs for Explainable Misinformation Detection

Papier arXiv proposant LONSREX, un pipeline de synthèse de données pour affiner les LLM en détection de désinformation explicable. Les auteurs identifient deux problèmes : les rationales filtrées sur label binaire sont insuffisantes, et les LLM forts produisent des rationales verbeux inutiles. LONSREX introduit une métrique évaluant la nécessité et suffisance de chaque étape de vérification.

LlamaFine-tuningÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

Progressive Autonomy as Preference Learning: A Formalization of Trust Calibration for Agentic Tool Use

Formalisation de l'étalonnage de la confiance pour les agents autonomes via apprentissage de préférences. Un gateway utilise un processus gaussien pour modéliser la tolérance au risque humain à partir de retours binaires (approuver/refuser), et escalade les décisions incertaines à l'humain. Approche structurée comme optimisation bayésienne préférentielle.

Agents IARaisonnementSécurité IA
SIG
72
HYP
18
arXiv cs.CL·

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Un article de position critique les méthodes d'Uncertainty Quantification (UQ) pour LLMs, arguant qu'elles ne font que du clustering non supervisé. Ces approches quantifient la cohérence interne des générations plutôt que leur exactitude externe, échouant à détecter les « hallucinations confiantes ». L'auteur propose un changement de paradigme vers une UQ ancrée dans la vérité objective.

Sécurité IAAlignementÉvaluations
SIG
72
HYP
25
arXiv cs.LG·

Multi-Pedestrian Safety Warning at Urban Intersections Use Case of Digital Twin

Système d'alerte de sécurité pour piétons aux carrefours urbains utilisant un jumeau numérique couplé à des capteurs (caméra, UWB) et modélisation prédictive de trajectoires. Déployé sur le testbed COSMOS à New York, le système génère des alertes en temps réel via edge-cloud computing et réduit significativement les temps de réaction des usagers vulnérables.

VisionInfrastructureSécurité IA
SIG
72
HYP
28
arXiv cs.AI·

Evaluating the Utility of Personal Health Records in Personalized Health AI

Étude évaluant Gemini 3.0 Flash sur 2,257 requêtes de patients avec contexte de dossiers médicaux personnels (PHR). Amélioration significative de l'utilité des réponses avec données PHR (p<0.001). Identification de lacunes : désorientation temporelle, confabulations rares. Framework d'évaluation développé pour surveiller la qualité des réponses basées sur PHR.

GeminiRAGÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment

Un article arXiv introduit le critère de validité « Generative-Evaluative Agreement » (GEA) pour évaluer si un LLM peut scorer correctement les réponses qu'il a lui-même générées. Sur un test adaptatif à deux étapes, le modèle récupère ~70% de la variance intentionnelle avec biais positif systématique. GEA est fort (r>0.7) pour les compétences syntaxiques mais proche de zéro pour les compétences de conception.

ÉvaluationsRaisonnementSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling

SIGMA est un framework multi-agent basé sur graphes signés qui modélise explicitement les relations de confiance, conflit et neutralité entre agents LLM. Via passage de messages conscient des conflits et agrégation pondérée, il supprime les signaux contradictoires et renforce les agents fiables. Tests sur 6 benchmarks montrent des gains de précision et résilience aux conflits.

Multi-agentsRaisonnementAgents IA
SIG
72
HYP
28
arXiv cs.CL·

Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters

Étude sur l'injection de compétences cross-modales : transfert d'expertise d'un LLM spécialisé vers un VLM via fusion de modèles. Analyse systématique de 3 aspects : scénarios (succès en suivi d'instructions et cross-lingue, échec en raisonnement mathématique), méthodes (TA et DARE surpassent les alternatives), hyperparamètres. Évite SFT coûteux.

Fine-tuningVisionRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

LambdaPO propose une optimisation de politique par comparaisons appariées pour l'alignement des modèles de raisonnement. Contrairement à GRPO qui utilise une baseline statistique unique, LambdaPO décompose l'avantage en différentiels de récompense pairwise entre trajectoires, pondérés par la confiance du modèle. Une récompense de densité sémantique enrichit le signal d'optimisation sur tâches mathématiques et QA.

Reinforcement learningRaisonnementAlignement
SIG
72
HYP
28
arXiv cs.AI·

Embedding by Elicitation: Dynamic Representations for Bayesian Optimization of System Prompts

ReElicit est un framework d'optimisation bayésienne pour tuner les system prompts avec feedback agrégé uniquement. Un LLM élicite dynamiquement un espace de features compact et interprétable, puis un processus Gaussien sélectionne des vecteurs cibles optimisés en prompts déployables. Sur 10 tâches avec budget de 30 évaluations, ReElicit surpasse les baselines d'optimisation de prompts.

Prompt engineeringRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

KAN-MLP-Mixer: A comprehensive investigation of the usage of Kolmogorov-Arnold Networks (KANs) for improving IMU-based Human Activity Recognition

Étude comparative de Kolmogorov-Arnold Networks (KANs) vs MLPs pour la reconnaissance d'activité humaine (HAR) basée sur IMU. Les KANs excellent sur données propres mais échouent sur données bruitées réelles. L'architecture hybride KAN-MLP proposée atteint +5,33% de F1-score macro sur 8 datasets publics, surpassant les baselines pures.

BenchmarksPapers
SIG
72
HYP
25
arXiv cs.CL·

Drifting Objectives for Refining Discrete Diffusion Language Models

TokenDrift applique les méthodes de drifting (correction d'objectif) aux modèles de diffusion discrets pour le langage. La technique lève les prédictions catégoriques en features soft-token, applique un drifting anti-symétrique dans un espace sémantique gelé, et rétropropage vers les logits. Sur MDLM et DUO, TokenDrift réduit la perplexité de génération de 89% et 86% à 4 NFE.

PapersGénération de codeRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

Base Models Look Human To AI Detectors

Les détecteurs IA commerciaux (GPTZero, Pangram) classent le texte des modèles de base comme humain, contrairement aux versions instruction-tuned. Les chercheurs proposent HIP (Humanization by Iterative Paraphrasing), un pipeline qui affine minimalement un modèle de base en paraphraseur itératif. Testé sur Llama-3 et Qwen-3 (0.6B-70B), HIP améliore la ressemblance humaine tout en préservant la sémantique.

LlamaQwenFine-tuning
SIG
72
HYP
35
arXiv cs.LG·

Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints

LILAC+ propose un cadre pour l'apprentissage par renforcement continu sûr en environnements non-stationnaires. Le système combine trois mécanismes adaptatifs : contraintes de sécurité basées sur le contexte, contraintes de vitesse d'adaptation, et application de budget-à-état. Évalué en simulation de conduite, il réduit les violations de sécurité sous changement de distribution tout en maintenant la performance.

Reinforcement learningSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.LG·

From Cumulative Constraints to Adaptive Runtime Safety Control for Nonstationary Reinforcement Learning

CPSS (Constraint Projection Safety Shield) convertit les budgets de sécurité cumulatifs en seuils de contrôle adaptatifs au niveau des états pour l'apprentissage par renforcement non-stationnaire. Le mécanisme ajuste dynamiquement les contraintes de risque selon le contexte, garantit la satisfaction des seuils par état et réduit les violations de sécurité dans des scénarios de fusion autoroutière.

Reinforcement learningSécurité IARaisonnement
SIG
72
HYP
18
arXiv cs.LG·

An Integrated Forecasting Prototype for Emergency Department Boarding Time to Support Proactive Operational Decision Making

Prototype de prévision du temps d'attente aux urgences utilisant des modèles de séries temporelles (DLinear, NLinear) sur données hospitalières réelles. Intègre météo, jours fériés et événements locaux. Horizons de prévision : 6, 8, 10, 12 et 24 heures. Application MLOps développée pour déploiement opérationnel.

BenchmarksInfrastructureOutils
SIG
72
HYP
15