Page 64 sur 192

ToutHaut signalRécent

7679 articles

Abstracting Cross-Domain Action Sequences into Interpretable Workflows

WorkflowView utilise des LLM pour abstraire les séquences d'actions bas-niveau en activités haut-niveau interprétables. Testé sur trois domaines (logs navigateur, prédiction dropout MOOC, workflows Word), le framework atteint similarité sémantique μ_sim=0.91 et F1=0.90 en few-shot, démontrant robustesse cross-domaine et efficacité computationnelle.

Raisonnement RAG Évaluations

SIG

HYP

arXiv cs.LG·15 juin

A Stationarity-and-Coupling Criterion for Training-Free Time-Lagged Spectral Embeddings of Multivariate Time Series

Étude d'un descripteur sans entraînement pour séries temporelles multivariées basé sur des matrices de corrélation décalées temporellement. Les auteurs proposent un critère de stationnarité et couplage pour prédire quand cette approche fonctionne : elle réussit sur Sleep-EDF (88.5%), BCI-IV-2a, MIT-BIH, ESC-50 mais échoue sur données non-stationnaires ou discriminées par puissance, validant le critère prédictif.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·15 juin

SpikF-GO: Spiking Fourier Graph Operators for Multivariate Time Series Forecasting

SpikF-GO combine les réseaux de neurones impulsionnels (SNN) avec des opérateurs graphiques de Fourier pour la prévision de séries temporelles multivariées. La méthode introduit des portes de fréquence Hard Concrete et des portes LIF complexes pour traiter les composantes réelles et imaginaires, réduisant la consommation énergétique tout en surpassant FourierGNN sur 8 benchmarks.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·15 juin

Utility-Constrained Policy Optimization

Article proposant une méthodologie pour les MDPs contraints sensibles au risque (UCMDPs). Contrairement aux CMDPs classiques, le framework permet d'ajuster les limites de contrainte sans réentraînement et évite les solutions mélangeant comportements catastrophiques rares et conservatisme excessif. Résultats sur Safety Gymnasium.

Reinforcement learning Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·15 juin

Rethinking Backdoor Adversarial Unlearning through the Lens of Catastrophic Forgetting in Continual Learning

Nouvelle approche pour éliminer les backdoors dans les modèles IA via l'apprentissage continu. BI-BAU formule l'unlearning comme inversion aveugle résolue par optimisation bi-niveau et EM. Élimine complètement les effets backdoor sur attaques ciblées et non-ciblées, y compris en apprentissage multi-modal.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·15 juin

Hybrid Classical-Quantum Variational Autoencoder for Neural Topic Modeling

Modèle VAE hybride classique-quantique pour la modélisation de sujets. Circuit quantique paramétrisé (10 qubits) intégré dans l'encodeur, décodeur classique. Sur AgNews : score de cohérence Cv=0.71, NPMI=0.20, surpasse les modèles de sujets neuraux existants.

Papers Benchmarks RAG

SIG

HYP

arXiv cs.CL·15 juin

Fusing Stylometric and Embedding Systems to Estimate Authorship Likelihood Ratios in Japanese

Première application du cadre de rapport de vraisemblance (likelihood ratio) à l'attribution d'auteur en japonais. Fusion de systèmes stylométriques et d'embeddings de modèles de langage pré-entraînés sur ~1000 caractères de blogs. Le système fusionné améliore la discrimination (log-likelihood-ratio cost: 0.32484) tout en maintenant une bonne calibration.

Embeddings Benchmarks Papers

SIG

HYP

arXiv cs.CL·15 juin

The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models

Étude des représentations internes dans les LLMs textuels et un modèle ASR pour examiner si les verbes phraséaux V+up développent des représentations distinctes selon la fréquence et la prévisibilité. Tous les modèles montrent des preuves de stockage holistique piloté par ces facteurs, soutenant les théories linguistiques basées sur l'usage.

Papers Raisonnement Voix

SIG

HYP

arXiv cs.CL·15 juin

Implicit Reasoning for Large Language Model-based Generative Recommendation

PauseRec propose un paradigme de raisonnement implicite pour les systèmes de recommandation génératifs basés sur LLM. L'approche contourne les limitations des pipelines explicites (CoT) en évitant l'acquisition de traces de raisonnement, améliorant les performances de 6,22%, réduisant les coûts GPU de 65% et accélérant l'inférence de 71,3%.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·15 juin

MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition

MoDiCoL est un dataset de continual learning modulaire pour évaluer la robustesse des systèmes ASR face aux variations réelles (accents, bruits, conditions d'enregistrement, troubles de la parole). Les auteurs proposent un curriculum inspiré du monde réel et évaluent trois stratégies de continual learning pour analyser comment la robustesse se développe, se transfère et s'oublie.

Benchmarks Évaluations Voix

SIG

HYP

arXiv cs.CL·15 juin

A Computational Audit of Demographic Association Encoding in ClinicalBERT Language Predictions

Audit computationnel de ClinicalBERT révélant que 65,6% des biais démographiques encodés ne proviennent pas des données d'entraînement MIMIC-III mais d'une amplification interne du modèle. Analyse via Log Probability Bias Analysis et probing MLM sur 98 templates cliniques réels et 8 combinaisons race-genre intersectionnelles.

Benchmarks Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·15 juin

Fodor and Pylyshyn's Systematicity Challenge Still Stands

Un article arXiv remet en question les affirmations selon lesquelles les réseaux de neurones résoudraient le défi de la systématicité de Fodor et Pylyshyn. Les auteurs montrent que le protocole de meta-learning pour la compositionnalité de Lake et Baroni échoue sur des données hors-distribution et manque de systématicité même en-distribution.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·15 juin

Persuasion Index: A Theory-Guided Framework for Persuasion Analysis

Persuasion Index (PI) est une taxonomie de 15 dimensions fondée sur les théories de la persuasion en psychologie et communication. Implémentation avec 55 sous-features basées sur lexiques et détecteurs. Évaluation sur 4 datasets publics montre que PI fournit un espace de features partagé pour interpréter les patterns rhétoriques. Modèles linéaires légers et interprétables. Package open-source et interface web.

Papers Sécurité IA Prompt engineering

SIG

HYP

arXiv cs.CL·15 juin

LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

LoSoNA est un benchmark évaluant la capacité des LLM à reconnaître et adapter les normes sociales locales dans les conversations de groupe. Huit modèles testés sous quatre conditions de prompting : Gemini 3.1 Pro atteint 84,2%, Claude Fable 5 81,6%. Le prompting explicite aide inégalement.

Benchmarks Claude Gemini

SIG

HYP

arXiv cs.CL·15 juin

AgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition

AgentSpec est un framework modulaire pour décomposer les agents LLM en composants réutilisables (perception, mémoire, raisonnement, réflexion, action, apprentissage). Les auteurs évaluent les interactions entre modules sur DeliveryBench, ALFRED, MiniGrid et RoboTHOR, montrant que la performance dépend de la compatibilité du scaffold et des effets d'interaction plutôt que de la force isolée des modules.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·15 juin

UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

UP-NRPA, un framework basé sur les portraits utilisateur, adapte dynamiquement les stratégies de dialogue avec LLM sans apprentissage par renforcement hors ligne. Sur benchmarks collaboratifs et non-collaboratifs, le système atteint 100% de succès en plusieurs tâches et augmente le ratio vente-prix de 56,41% en négociation.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·15 juin

Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher

HOTE (Hybrid Open-Ended Tri-Evolution) est un framework d'apprentissage par renforcement hybride pour l'évolution autonome d'agents IA sur des tâches de recherche ouverte. Un modèle 8B entraîné via HOTE surpasse les modèles statiques 8-32B et les méthodes SOTA sur trois benchmarks de recherche approfondie.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·15 juin

Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

Comparaison de deux méthodes d'intervention sur les refus de sécurité dans les modèles de chat : Difference-in-Means (DiM) vs Iterative Nullspace Projection (INLP). Sur 5 modèles open-weight, INLP counterfactual flipping égale DiM en suppression des refus, tandis que nullspace projection est plus faible. Les deux approches opèrent différemment dans l'espace d'activation.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.AI·15 juin

Hyperdimensional computing for structured querying on tabular data embeddings

Approche utilisant Hyperdimensional Computing (HDC) et Holographic Reduced Representations pour embeddings de données tabulaires. Dérive des seuils de similarité interprétables pour requêtes structurées (égalité/inégalité), évalue sur deux datasets réels contre baseline EmbDI. HDC détecte fiablement les requêtes sans résultats.

Embeddings Recherche vectorielle Papers

SIG

HYP

arXiv cs.AI·15 juin

A Multi-Agent AI System for Automated High School Transcript Processing: Collaborative Document Analysis at Scale

Système multi-agent pour traiter automatiquement les relevés de notes du secondaire. Architecture avec 4 agents spécialisés (reconnaissance de motifs, analyse sémantique, vision, orchestration) atteint 96,7% de précision sur 40 relevés réels de 13 États américains, 45 secondes par document.

Multi-agents Agents IA Vision

SIG

HYP

arXiv cs.AI·15 juin

Applicability Condition Extraction for Therapeutic Drug-Disease Relations

Nouvelle tâche d'extraction d'IA : identifier les conditions d'applicabilité des relations thérapeutiques drogue-maladie dans la littérature biomédicale. Premier dataset annoté manuellement avec 1 119 paires drogue-maladie. Méthode proposée améliore LoRA pour modéliser les relations drogue-maladie, surpassant les baselines.

Papers Fine-tuning RAG

SIG

HYP

arXiv cs.AI·15 juin

Communication Policy Evolution for Proactive LLM Agents

Étude formalisée des politiques de communication pour agents LLM autonomes. Comparaison de stratégies textuelles vs UI-based sur plusieurs environnements et modèles. Proposition de Communication Policy Evolution (CPE), framework d'auto-évolution par rollout et refinement de prompts, sans modification du modèle.

Agents IA Prompt engineering Papers

SIG

HYP

arXiv cs.AI·15 juin

Causal Object-Centric Models for Planning with Monte Carlo Tree Search

COMET combine un encodeur object-centric non supervisé avec un world model transformer pour effectuer Monte Carlo Tree Search dans un espace latent structuré. Un mécanisme action-slot fusion lie les actions aux objets. Évalué sur 8 tâches (Object-Centric Visual RL, ManiSkill, Robosuite, VizDoom), COMET surpasse les baselines en phase d'apprentissage précoce.

Reinforcement learning Raisonnement Robotique

SIG

HYP

arXiv cs.AI·15 juin

Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models

Fine-tuner des modèles vision-langage sur des listes de coordonnées denses améliore le grounding visuel mais induit des répétitions parasites. Sur Gemma 4 12B, une LoRA haute capacité élève F1@0.3 de 0.007 à 0.448 mais crée un taux de doublons de 0.080. Un contrôle au niveau objet élimine les répétitions (taux 0.000) tout en préservant la performance (F1 0.490).

Fine-tuning Vision Benchmarks

SIG

HYP

arXiv cs.AI·15 juin

A Temporal Planning Framework for Disruption Aware Dynamic Route Optimization in Heterogeneous Railway Systems

Framework de planification temporelle pour optimiser dynamiquement les itinéraires dans les réseaux ferroviaires hétérogènes multi-écartements. Formule les opérations comme problème PDDL 2.1, modélise contraintes de compatibilité et scénarios de disruption. Évalué sur 200 instances (jusqu'à 1 000 points de voie, 120 trains).

Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·15 juin

A fully GPU-based workflow for building physics emulators of hypersonic flows

Workflow GPU pour construire des émulateurs physiques de flux hypersoniques. Intègre JAX-Fluids (solveur différentiable haute fidélité) pour générer données et affiner des émulateurs neuraux avec quantification d'incertitude. Refinement basé résidus améliore la cohérence physique et permet l'entraînement avec paramètres limités.

Papers Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·15 juin

D2H-AD: A Hybrid Model Utilizing Hyperdimensional Computing for Advanced Anomaly Detection

D2H-AD est un framework de détection d'anomalies basé sur l'Hyperdimensional Computing (HDC). Il combine encodage sensible à la densité et similarité basée sur la distance, surpassant cinq baselines (HDAD, ODHD, One-Class SVM, Isolation Forest, Autoencoders) sur cinq datasets. L'encodage hyperdimensionnel seul atteint +5.4% ROC-AUC. Léger, interprétable, efficace computationnellement : adapté TinyML et edge AI.

Benchmarks Évaluations Infrastructure

SIG

HYP

arXiv cs.LG·15 juin

Neural Variability Enhances Artificial Network Robustness

Des chercheurs montrent que le bruit structuré dans les activations des réseaux de neurones artificiels améliore leur robustesse face aux attaques adversariales et modifications d'images naturelles. Cette approche s'inspire de la variabilité neuronale observée dans le cortex biologique et ne nécessite que des informations locales.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·15 juin

Attention-Based Estimation of the Individual Treatment Benefit Probability under Dose Variation

Dose-AIPTB propose une méthode basée sur l'attention pour estimer la probabilité qu'un traitement bénéficie à un patient individuel sous différentes doses. Le framework reformule le problème en classification binaire du signe de l'effet de traitement individuel, utilisant des comparaisons par paires et agrégation par attention. Code disponible sur GitHub.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·15 juin

Can Machine Learning Forecast Rice Yields in Data-Constrained Settings? Satellite Climate Data, National Crop Statistics, and Lessons from Sierra Leone

Étude ML sur la prévision des rendements de riz en Sierra Leone avec données limitées. XGBoost + données climatiques satellites (CHIRPS, NASA POWER) réduit l'erreur de 34% (RMSE 284 vs 428 kg/ha). Les pluies de mai-juin sont le prédicteur dominant. Pipeline open-source fourni.

Benchmarks Papers Open source

SIG

HYP

arXiv cs.LG·15 juin

Non-Parametric Machine Text Detection via Multi-View Gaussian Processes

Détection de texte généré par IA via processus gaussiens multi-vues non-paramétriques. La méthode agrège plusieurs signaux complémentaires (style, vraisemblance, structure) pour résister aux attaques adversariales (paraphrase, transfert de style). Évaluée sur DetectRL, RAID et PAN2025 avec performance supérieure aux approches existantes.

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.LG·15 juin

Deep Spectral Learning of Embedded Latent Transfer Operators for Stochastic Dynamical Systems

Méthode spectrale pour systèmes dynamiques stochastiques non-linéaires utilisant des opérateurs de transfert latents dans des espaces de features profonds. Deep Spectral Encoder (DSE) combine un encodeur neural non-linéaire, analyse canonique de corrélation fonctionnelle et filtrage bayésien séquentiel. Surpasse les baselines DMD et filtrage bayésien même sous bruit et observabilité partielle.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·15 juin

Numbers Already Carry Their Own Embeddings

AOE (Adelic operation-preserved embeddings) est une représentation sans entraînement qui encode les nombres en préservant structure additive et multiplicative via signatures p-adiques. Plug-and-play, elle atteint 100% sur le benchmark Weaving Pattern et améliore les performances en combinatoire algébrique sans retraining spécifique.

Embeddings Benchmarks Papers

SIG

HYP

arXiv cs.LG·15 juin

Recovering Stranded Discrimination in Knowledge Tracing: Per-Item Bias Correction via Empirical-Bayes Shrinkage

SLC (State-space Logit Correction) corrige les biais systématiques par item dans les modèles de knowledge tracing déployés. Via transformation Laplace/IRLS, shrinkage empirique-Bayes et Kalman smoother, la méthode améliore l'AUC sur 4 datasets et 5 backbones, particulièrement sur items rares. Les calibrateurs globaux (Platt, temperature scaling) ne récupèrent pas la discrimination perdue.

Évaluations Fine-tuning Alignement

SIG

HYP

arXiv cs.LG·15 juin

Trust but Verify: Mitigating Medical Hallucinations via Post-Hoc Adversarial Auditing and Multi-Agent Feedback Loops

Étude arXiv sur les hallucinations médicales des LLM. Système multi-agent « Trust but Verify » testant 3 familles de modèles (GPT-OSS, Llama-3, Falcon-3) sur 103 questions cliniques avec médicaments bannis. Architecture à 5 agents réduit le taux d'hallucination de 53% et force le refus approprié plutôt que la recommandation dangereuse.

Multi-agents Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·15 juin

Learning High Coverage Discriminative Parsimonious Rulesets

CDPR, deux algorithmes basés sur la maximisation sous-modulaire, génèrent des ensembles de règles IF-THEN pour la classification avec couverture garantie, discriminativité et parcimonie. Amélioration de 2,5× en couverture moyenne vs état de l'art.

SIG

HYP

arXiv cs.CL·15 juin

Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces

WebDecept, un framework de test, évalue la robustesse des agents web autonomes face à des interfaces trompeuses en e-commerce. Sept patterns de déception (publicités ciblées, redirections, manipulations d'achat) sont injectés dans des environnements web. Les résultats montrent que les agents multimodaux actuels sont hautement vulnérables et que les contraintes par prompt ne suffisent pas à mitiger ces défaillances.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.CL·15 juin

Which Models Perform Better in Inheritance Reasoning?

Évaluation de modèles LLM commerciaux vs open-source sur le raisonnement juridique en droit successoral islamique (tâche QIAS 2026). Gemini 2.5 Flash obtient les meilleurs résultats (MRE 0.989), tandis que les modèles open-source montrent une instabilité accrue dans les décisions dépendantes et ajustements fractionnaires.

Benchmarks Raisonnement Gemini

SIG

HYP

arXiv cs.LG·15 juin

Curvature-Guided Geometric Representation for Protein-Ligand Binding Affinity Prediction

RicciBind, un framework de représentation géométrique, prédit l'affinité de liaison protéine-ligand en combinant la courbure de Ricci pour capturer l'organisation locale et le transport optimal pour l'alignement cross-domaine. Démontre performance supérieure sur benchmarks PLA et tâches de criblage virtuel.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·15 juin

SANA: What Matters for QA Agents over Massive Data Lakes?

SANA est un framework d'ablation diagnostique pour évaluer les agents QA sur des data lakes massifs. Il décompose les défaillances end-to-end en quatre composants : recherche, planification, analyse de données et politique d'action. Testé sur LakeQA et KramaBench, il révèle que l'analyse de données est le goulot d'étranglement principal, tandis que la recherche limite surtout les grands data lakes.

Agents IA Évaluations Benchmarks

SIG

HYP