Page 59 sur 192

ToutHaut signalRécent

7679 articles

A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models

OpenAI établit une connexion théorique entre les réseaux antagonistes génératifs (GAN), l'apprentissage par renforcement inverse et les modèles basés sur l'énergie. Cette unification mathématique offre une perspective nouvelle sur trois paradigmes fondamentaux du machine learning.

OpenAI Papers Reinforcement learning

SIG

HYP

OpenAI Blog·9 nov.

RL²: Fast reinforcement learning via slow reinforcement learning

OpenAI présente RL², une méthode de reinforcement learning qui utilise un apprentissage lent pour accélérer l'adaptation rapide des agents. La technique entraîne un modèle à apprendre efficacement à partir d'expériences limitées, améliorant la généralisation et la vitesse de convergence sur de nouvelles tâches.

Reinforcement learning OpenAI Raisonnement

SIG

HYP

OpenAI Blog·21 juin

Concrete AI safety problems

OpenAI, Berkeley et Stanford co-signent un paper dirigé par Google Brain sur les problèmes concrets de sécurité IA. Le document explore les défis de recherche pour garantir que les systèmes ML modernes fonctionnent comme prévu.

Sécurité IA Alignement Papers

SIG

HYP

OpenAI Blog·27 avr.

OpenAI Gym Beta

OpenAI lance la bêta publique de Gym, une boîte à outils pour développer et comparer des algorithmes d'apprentissage par renforcement. Elle inclut des environnements variés (robots simulés, jeux Atari) et une plateforme de comparaison des résultats.

OpenAI Reinforcement learning Outils

SIG

HYP

OpenAI Blog·25 févr.

Weight normalization: A simple reparameterization to accelerate training of deep neural networks

OpenAI présente la normalisation des poids, une reparamétrisation simple qui accélère l'entraînement des réseaux de neurones profonds. La technique découple la magnitude et la direction des poids, réduisant la covariance des gradients et améliorant la convergence.

OpenAI Papers Reinforcement learning

SIG

HYP

arXiv cs.CL·18 juin

Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction

RPCL, un framework d'entraînement pour l'extraction de paires émotion-cause multimodales, améliore la robustesse des scores de confiance. Via des contraintes de marge et une corruption contextuelle, il augmente le F1 de 2.58–2.83 points sur ECF/MECAD/MEC4 sans modifier l'inférence.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·18 juin

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim est un benchmark de prévision basé sur des simulations du jeu Freeciv. Les modèles reçoivent un état de jeu structuré et prédisent des états futurs cachés ; le benchmark continue la simulation pour évaluer les prévisions. Permet des questions à horizons arbitraires, des mondes contrefactuels et des événements rares.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

RTSGameBench est un benchmark pour évaluer le raisonnement stratégique des Vision-Language Models (VLMs) dans des jeux de stratégie en temps réel. Basé sur Beyond All Reason, il propose des évaluations multi-scénarios, des mini-jeux diagnostiques ciblant des compétences spécifiques, et un framework auto-évolutif. Les VLMs actuels échouent sur la coordination multi-agents et les tâches complexes.

Vision Raisonnement Multi-agents

SIG

HYP

arXiv cs.LG·18 juin

The Illusion of Improvement: Reject Inference Strategies in Credit Scoring

Les méthodes de reject inference utilisées en scoring crédit pour corriger le biais de survie masquent un problème structurel : l'accuracy peut s'améliorer tandis que la capacité à rejeter les défaillants s'effondre. Les auteurs proposent une stratégie d'exploration contrôlée (approuver 2-5% des candidats rejetés) pour diagnostiquer cette dégradation sans hypothèses statistiques fortes.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Task-Restricted Symmetries in Recurrent Weight Space

Étude des redondances fonctionnelles dans les RNNs à une couche via décomposition de Schur. Les auteurs identifient des couplages non-normaux supprimables sans perte majeure sur certaines tâches (copie, flip-flop, génération sinusoïdale), révélant des invariances fonctionnelles approximatives spécifiques à chaque tâche plutôt que des symétries universelles.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT est un framework agentic-RAG modulaire qui réduit les hallucinations des VLMs via une pipeline fermée à 5 étapes (Extractor, Retriever, Solver, Citation Injector, Verifier). Les réclamations non fondées déclenchent une re-retrieval ciblée. 23 métriques composantes et CaVeScore mesurent la fidélité des citations et l'ancrage multimodal. Résultats : 87,1% accuracy sur ScienceQA, 55,2% sur MMMU.

Vision RAG Agents IA

SIG

HYP

arXiv cs.CL·18 juin

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

Étude de l'impact collatéral du machine unlearning sur les LLM. Les auteurs montrent que les dégâts s'étendent au-delà du forget set selon un gradient de distance sémantique, et proposent PreUnlearn, une méthode de prédiction pré-unlearning pour auditer les risques avant exécution.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.LG·18 juin

A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks

Lien mathématique établi entre la théorie des ondes de choc et la dynamique de descente de gradient stochastique symétrique pour réseaux de neurones. Après quotient des symétries et coarse-graining entropique, la dynamique effective satisfait une équation Hamilton-Jacobi visqueuse. Appliqué à MLPs, CNNs, Transformers et réseaux mean-field.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·18 juin

Low-resource Language Discrimination Towards Chinese Dialects with Transfer learning and Data Augmentation

Framework CDDTLDA pour discriminer les dialectes chinois en contexte de ressources limitées. Utilise transfer learning sur modèles ASR, augmentation de données (vitesse, pitch, bruit) et mécanisme d'auto-attention pour capturer les features sémantiques communes. Surpasse les méthodes SOTA sur deux corpus de référence.

Voix Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Speech-Driven End-to-End Language Discrimination towards Chinese Dialects

Article proposant une approche speech-driven pour la discrimination entre dialectes chinois. Combine features MFCC, modèle HMM-DNN pour la reconnaissance vocale, attention mechanism et CNN. Évaluation sur deux corpus benchmark montre amélioration vs état de l'art.

Voix Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation

Activation steering améliore la génération de données synthétiques pour les langues peu dotées. Deux stratégies testées : Language Steering (identité linguistique) et Quality Steering (bien-formedness). Évaluation sur 4 LLMs open-source, 11 langues, tâches de classification. Steering sur couches précoces augmente la diversité et la performance aval.

Prompt engineering Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Continuous Audio Thinking for Large Audio Language Models

Continuous Audio Thinking (CoAT) ajoute un espace latent continu aux modèles audio-langage pour préserver les informations acoustiques (phonétique, prosodie, affect, pitch) avant génération de texte. Testé sur Qwen2-Audio, Qwen2.5-Omni-7B et Audio Flamingo, CoAT améliore les performances en raisonnement audio, classification musicale et transcription sans coût de décodage supplémentaire.

Raisonnement Voix Qwen

SIG

HYP

arXiv cs.AI·18 juin

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

WorldLines est un benchmark pour agents incarnés sur long horizon testant la mémoire dans des environnements domestiques dynamiques. Le dataset inclut traces temporelles avec dialogues, actions, changements d'état d'objets/appareils. ObsMem, un framework de mémoire basé observateur, maintient des mémoires conscientes de la visibilité et des traces d'état pour des décisions informées.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning

NeSyCat Torch unifie les sémantiques neurosymboliques (classique, floue, probabiliste, neurale) sous une définition unique de la vérité paramétrée par des monades. Implémenté en PyTorch, JAX et HaskTorch, le framework interprète les symboles computationnels via réseaux de neurones. Sur MNIST addition, surpasse LTN et DeepProbLog en vitesse/précision.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

Generative-Model Predictive Planning for Navigation in Partially Observable Environments

BeliefDiffusion combine diffusion models et Model Predictive Control pour la navigation en environnements partiellement observables. Le framework génère des distributions de croyance multimodales et planifie des stratégies de navigation efficaces. Expériences sur cartes synthétiques : surpasse RL et autres approches génératives en taux de succès et efficacité de trajectoire.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction

Nouvelle théorie formelle (HACD-H) modélisant l'émergence de l'intelligence sociale dans l'interaction humain-IA long-terme. Framework unifié intégrant adaptation émotionnelle, mémoire sociale et cohérence de personnalité. Étude sur 14,700 tours de conversation révèle corrélation négative entre intelligence sociale et énergie cognitive (r=-0.391, p<0.001), avec patterns de transition développementale.

Raisonnement Agents IA Papers

SIG

HYP

arXiv cs.AI·18 juin

Analysing drivers and interdependencies in European electricity markets using XAI

Étude combinant réseaux de neurones profonds et XAI (SHAP, SSHAP) pour analyser 39 zones de soumission électriques européennes. Identifie l'énergie solaire comme facteur disproportionné de formation des prix, les prix du gaz comme moteur dominant, et les interconnexions comme révélatrices de l'interdépendance des marchés.

Évaluations Papers

SIG

HYP

arXiv cs.AI·18 juin

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench est un benchmark d'évaluation de la sécurité des LLM dans les workflows AI4Science. Il couvre 7 disciplines, 31 sous-disciplines et 10 dimensions de risque. Les auteurs évaluent des LLM mainstream et orientés science pour diagnostiquer les lacunes de sécurité.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Towards an Agent-First Web: Redesigning the Web for AI Agents

Papier proposant une refonte du web pour intégrer les agents IA comme citoyens de première classe. Trois couches : accès (headers HTTP, contenu dual human/agent), économie (modèle token-based, intent-based tiers), contenu (ATML, chaîne cryptographique de provenance contre la récursion épistémique). Dix principes de design pour un internet agent-first.

Agents IA Infrastructure Régulation

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.CL·18 juin

Steerable Cultural Preference Optimization of Reward Models

Nouvelle méthode SCPO pour entraîner des reward models capables de représenter équitablement les préférences culturelles de différentes communautés. Gains de 7 points pour les modèles minoritaires sur PRISM et GlobalOpinionQA (7 pays), avec 280% d'efficacité accrue en données d'entraînement.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·18 juin

BCL: Bayesian In-Context Learning Framework for Information Extraction

BCL est un framework d'optimisation pour l'extraction d'information utilisant le filtrage particulaire et les mises à jour bayésiennes. Il affine systématiquement les représentations d'étiquettes pour le labeling de séquences et la classification de relations, montrant des améliorations consistantes sur plusieurs échelles de modèles.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

Étude sur l'évaluation des rapports radiologiques générés par IA. Les chercheurs montrent que les LLM existants pénalisent excessivement les reformulations inoffensives tout en détectant les erreurs cliniques. Ils entraînent des métriques légères sur Qwen3-8B et MedGemma-4B surpassant des modèles médicaux 32B, avec publication du dataset et de la métrique.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

Approximate Structured Diffusion for Sequence Labelling

Nouvelle approche combinant diffusion et CRF pour le sequence labelling en NLP. La méthode conditionne un CRF sur la séquence complète de labels (bruitée), contournant les limitations de portée des CRF classiques. Résultats : réduction d'erreur de 16.5% sur le POS-tagging.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Improving Medical Communication using Rubric-Guided Counterfactual Recommendations

Pipeline de recommandations contrefactuelles guidées par LM pour améliorer la communication médicale en télémédecine textuelle. Le système identifie des features interprétables (ton, personnalisation, clarté, complétude) et recommande des changements minimaux de communication prédits pour augmenter le feedback positif (+6.41% en moyenne). Les modifications préservent le contenu médical et le contrôle du médecin.

Raisonnement Évaluations RAG

SIG

HYP

arXiv cs.LG·18 juin

Enhanced Graph Neural Networks using K-Hop Gaussian Diffusion

Nouvelle méthode de diffusion K-Hop Gaussian (KHG) pour améliorer les GNN. KHG prétraite les données graphiques avec une diffusion multi-hop pondérée par Gaussian, équilibrant propagation locale et globale. Surpasse message-passing standard, PPR et Heat Kernel sur benchmarks, notamment sur graphes bruyants.

Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE est un framework d'optimisation stochastique de prompts via exploration guidée par agents multi-agents. Comparaison de trois stratégies : recherche aléatoire informée par erreurs, algorithme génétique, et SAGE avec exécution de code diagnostique. Déploiement sur chatbot santé mentale : 8 cycles d'A/B tests bruyants produisent un gain statistiquement robuste en rétention.

Prompt engineering Agents IA Multi-agents

SIG

HYP

arXiv cs.LG·18 juin

Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

Gaussian Mixture Attention (GMA) remplace l'attention standard par un routage probabiliste via K composantes gaussiennes apprises. Queries et keys sont mappées à des vecteurs de responsabilité dans un espace latent partagé. GMA évite la matrice N×N explicite et réduit la complexité mémoire à O(NK) au lieu de O(N²). Compétitif sur classification long-contexte, mais derrière SDPA et Mamba sur WikiText-103.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

Artemis: Anatomy-Resolved inTervention for Eliminating Multimodal NeuroImage confounderS

Artemis est un framework causal pour les graphes de neurones qui traite les biais démographiques (âge, sexe) dans l'imagerie cérébrale multimodale (fMRI + DTI). La méthode applique des interventions causales au niveau de chaque région cérébrale pour apprendre des représentations invariantes. Testée sur ADNI, OASIS et HCP, elle améliore les diagnostics de maladie et la classification.

Papers Raisonnement Alignement

SIG

HYP

arXiv cs.LG·18 juin

Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression

Méthode de compression structurelle pour modèles MoE (Mixture-of-Experts) via élagage au niveau des canaux. Utilise une approche d'attribution pour maximiser la couverture des scores de canaux. Tests sur DeepSeek et Qwen montrent 50% d'élagage structurel avec quantification 4-bit, réduction mémoire 5.27× sur Qwen3-30B-A3B.

DeepSeek Qwen Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds

Nouvelle mesure de complexité géométrique appelée Fisher width, analogue de la Gaussian width sur les variétés statistiques. Utilise la métrique d'information de Fisher au lieu de la géométrie euclidienne pour capturer la courbure statistique locale. Développe la théorie fondamentale avec bornes de généralisation et estimateurs calculables, validés sur MNIST.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·18 juin

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

R2D-RL connecte le simulateur RoboCup 2D Soccer (RCSS2D) à des workflows Python d'apprentissage par renforcement multi-agent via mémoire partagée. L'environnement supporte l'entraînement full-field et par scénarios, avec espaces d'action discrets/hybrides, masquage d'actions, reward shaping basé sur EPV, et exécution parallèle. Benchmarks 11-vs-11 et résultats de base fournis.

Multi-agents Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Why SWAVE May Not Be All You Need:A Concept-Evolution Retrospective on Complex-Valued Recurrent Language Models

SWave est un modèle de langage récurrent à valeurs complexes (169M paramètres) entraîné sur FineWeb-Edu. L'article documente son évolution sur trois phases, identifiant des défaillances structurelles (cos-domination collapse) et validant les composants critiques (ComplexNorm, Wave Propagation Scan). PPL final : 22.0 à l'étape 89,861.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

SCOPE-FL: A Strategy-proof Chain-based Optimal pareto efficient Federated Learning System

SCOPE-FL propose un système de Federated Learning hiérarchique utilisant l'algorithme Top Trading Cycle pour la sélection de clients. Le mécanisme garantit l'efficacité de Pareto et la stratégie-proofness, avec distribution de récompenses via approximation Shapley et exécution blockchain. Évaluation sur MNIST, Fashion-MNIST, CIFAR-10 montre amélioration vs DA, IAS.

SIG

HYP

arXiv cs.LG·18 juin

P$^2$CE: Model-Agnostic Plausible Pareto-Optimal Counterfactual Explanations

P²CE génère des explications contrefactuelles Pareto-optimales plausibles pour les modèles ML. L'algorithme utilise une forêt d'isolation et les valeurs SHAP pour équilibrer faisabilité, plausibilité et efficacité computationnelle. Évalué sur 3 datasets, il surpasse les méthodes existantes en qualité et vitesse.

Évaluations

SIG

HYP