Page 69 sur 148

ToutHaut signalRécent
5895 articles
arXiv cs.AI·

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Nouvelle méthode IBAL pour renforcer la robustesse du MARL face aux perturbations d'interactions inter-agents. Le framework utilise une approche théorique de l'information pour construire des attaques qui dégradent la coordination en perturbant observations et actions, puis entraîne les agents à rester fiables. Amélioration démontrée sur baselines existants et scénarios d'agents manquants.

Multi-agentsReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning

Distinguishable Deletion (D²) unifie suppression de connaissance et refus pour l'oubli des LLM. La méthode utilise un index énergétique pour effacer les connaissances indésirables dans les représentations latentes plutôt que des tokens spécifiques, évitant la suppression biaisée et la réémergence de contenu nuisible. Energy-based Unlearning Alignment (EUA) applique ce mécanisme à l'entraînement et l'inférence.

Sécurité IAAlignementPapers
SIG
72
HYP
25
arXiv cs.AI·

Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders

Étude sur les biais de popularité dans les systèmes de recommandation génératifs (GRs). Les auteurs identifient que ce biais provient d'une faille d'optimisation au niveau des tokens et d'une tokenization d'items non différenciée. Ils proposent Ghost, un GR avec optimisation asymétrique unlikelihood et tokenization skeleton-founded, validé sur 3 datasets.

PapersBenchmarksAlignement
SIG
72
HYP
18
arXiv cs.AI·

Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

Méthode post-hoc d'alignement multimodal utilisant des représentations relatives au niveau token pour appareiller encodeurs pré-entraînés avec peu de données. Apprentissage d'ancres learnable dans chaque espace modal pour induire des patterns de similarité cross-modal cohérents. Surpasse les méthodes existantes en classification zero-shot, retrieval cross-modal et segmentation zero-shot.

EmbeddingsVisionRAG
SIG
72
HYP
18
arXiv cs.AI·

GRID: Graph Representation of Intelligence Data for Security Text Knowledge Graph Construction

GRID est un framework end-to-end pour construire des graphes de connaissances de sécurité à partir d'articles de cyber threat intelligence. Utilisant Qwen3-4B-Instruct, il combine extraction de graphes, révision de texte et une banque de tâches (questions multi-choix + regex) pour générer des récompenses stables. Sur 249 articles CTI, le modèle Task-bank atteint 84,62% précision, 64,91% rappel et 68,53% F1 moyen.

Reinforcement learningBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

The Lattice Representation Hypothesis of Large Language Models

Une hypothèse propose que les LLM encodent des treillis de concepts (lattices) dans leur géométrie d'embeddings. Le cadre unifie la Linear Representation Hypothesis avec l'Analyse Formelle de Concepts (FCA), montrant que les directions d'attributs linéaires induisent des treillis via intersections d'hyperplans. Expériences sur WordNet valident que les embeddings capturent les structures logiques et hiérarchiques.

RaisonnementPapersEmbeddings
SIG
72
HYP
18
arXiv cs.AI·

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

HT-GRPO, une méthode d'apprentissage par renforcement hiérarchique pour les modèles de diffusion multi-modaux, organise l'optimisation en trois étapes (global, structure, raffinement). Elle résout le problème des séquences de démasquage multiples et attribue des récompenses différenciées selon l'importance des tokens. Tests sur MMaDA et Lumina-DiMOO montrent des gains sur GenEval et DPG.

Reinforcement learningGénération d'imagesBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

Towards Human-Level Book-Writing Capability

Chercheurs présentent un framework pour l'écriture créative à l'échelle du livre. À partir de romans du domaine public, ils construisent un échafaudage multi-résolution (résumé → chapitres → scènes → texte complet) et entraînent un modèle long-contexte sur des trajectoires prompt-to-book. L'objectif : générer de la prose littéraire humaine plutôt que du texte générique assisté.

Fine-tuningRaisonnementGénération de code
SIG
72
HYP
28
arXiv cs.AI·

Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models

Les grands modèles de raisonnement (LRM) génèrent des traces alignées avec les temps de réaction humains, mais cet alignement persiste indépendamment du budget de raisonnement en inférence. Étude sur GPT-OSS-20B et GPT-OSS-120B : trois niveaux d'effort, six tâches cognitives. L'allocation de tokens suit les patterns de difficulté humains et reflète une structure figée à l'entraînement, non modulée en temps réel.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Scientific Logicality Enriched Methodology for LLM Reasoning: A Practice in Physics

Étude systématique de la logicité dans le raisonnement scientifique des LLM. Les auteurs développent une méthodologie enrichie incluant des critères d'évaluation et des méthodes d'échantillonnage pour l'entraînement guidé par la logicité. Expériences sur trois LLM différents avec données de physique extraites de littérature académique. Code disponible.

RaisonnementFine-tuningPapers
SIG
72
HYP
18
arXiv cs.AI·

Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

ECC, un algorithme de clustering de requêtes, calibre les embeddings sémantiques via comparaisons de modèles pour aligner la sémantique de surface avec les capacités latentes des LLM. Utilisant un modèle Bradley-Terry, il améliore le classement des capacités de 17,64 points vs baselines humaines et 18,02 points vs embeddings, avec applications au routage de requêtes.

ÉvaluationsBenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Latent Heuristic Search: Continuous Optimization for Automated Algorithm Design

Méthode de découverte automatique d'heuristiques via optimisation continue dans un espace latent. Un encodeur mappe des programmes discrets en embeddings continus, un modèle de substitution différentiable prédit les performances, et un flux de normalisation invertible régularise la trajectoire d'optimisation. Évaluation sur TSP, CVRP, KSP et Online Bin Packing avec résultats compétitifs aux baselines évolutionnaires.

Agents IARaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

From Imitation to Interaction: Mastering Game of Schnapsen with Shallow Reinforcement Learning

Des agents de réseaux de neurones peu profonds maîtrisent le jeu de cartes Schnapsen via apprentissage par renforcement. RLBot, entraîné par mises à jour Monte Carlo asynchrones, surpasse MLPBot (imitation supervisée) et bat significativement RdeepBot, un baseline basé sur la recherche. La combinaison d'une fonction de valeur apprise avec une recherche plus profonde en jeu améliore les performances.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

CAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Modélisation de la difficulté d'items sans réponses pour questions à choix multiples via transformers fine-tunés. Approche end-to-end sur le texte des items éliminant l'ingénierie manuelle des features. Variante multi-tâche avec objectif auxiliaire QA améliore significativement les petits échantillons.

Fine-tuningBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Reasoning Before Diagnosis: Physician-Inspired Structured Thinking for ECG Classification

CardioThink, un framework MLLM inspiré par la pratique médicale, structure le diagnostic ECG en étapes explicites (rythme, conduction, morphologie, impression) pour améliorer l'interprétabilité. L'optimisation Structured Set Policy Optimization (SSPO) aligne le raisonnement clinique sans annotations manuelles, surpassant les approches directes sur plusieurs benchmarks ECG.

RaisonnementVisionReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un framework d'évaluation pour l'IA générative qui combine rubrics multi-dimensionnels conçus par experts et calibrage d'LLM évaluateurs sur un petit ensemble d'annotations de haute qualité. Testé sur génération de texte et images, QQJ montre meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles et les évaluateurs LLM non structurés.

ÉvaluationsBenchmarksAlignement
SIG
72
HYP
28
arXiv cs.AI·

Multi-Party Multi-Objective Optimization as Consensus Search: Runtime Analysis of Cross-Party Recombination

Étude théorique des algorithmes évolutionnaires multi-objectifs pour l'optimisation multi-parties (MPMOP). Sur le benchmark MP-JCG, une mutation guidée par les gains requiert Θ(n²) évaluations pour franchir une région critique, tandis que CPR-NSGA-II atteint O(n log n) via recombination cross-party. Analyse de runtime sur BPBOMST (problème d'arbre couvrant minimum multi-parties) avec bornes paramétrées.

Multi-agentsBenchmarksPapers
SIG
72
HYP
08
arXiv cs.AI·

NeuSymMS: A Hybrid Neuro-Symbolic Memory System for Persistent, Self-Curating LLM Agents

NeuSymMS est un système de mémoire hybride neuro-symbolique pour agents LLM. Il couple l'extraction neurale de faits depuis le dialogue avec un système expert CLIPS qui classe, déduplique et réconcilie les faits. Les connaissances sont stockées sous forme de triplets sujet-relation-valeur en base de données relationnelle, avec mémoire court/long terme et promotion basée sur l'accès.

Agents IARAGRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Multimodal Cultural Heritage Knowledge Graph Extension with Language and Vision Models

Nouvelle approche pour étendre les graphes de connaissances (KG) du patrimoine culturel français. Les auteurs introduisent WJoconde, un KG multimodal intégrant texte et images, avec trois variantes et un benchmark pour la complétion de KG. Ils proposent un framework combinant LLM et Vision-Language Models pour extraire et valider automatiquement les données, améliorant la fiabilité du KG.

VisionRAGBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

LAST-RAG: Literature-Anchored Stochastic Trajectory Retrieval-Augmented Generation for Knowledge-Conditioned Degradation Model Selection

LAST-RAG propose une méthode de sélection de modèles de dégradation stochastique pour l'estimation de la durée de vie utile restante (RUL). La méthode combine trajectoires observées et contexte domaine via récupération d'evidence d'une banque locale, avec un mécanisme RCRUS pour éviter l'élimination prématurée. Expériences montrent surperformance vs baselines statistiques et prognostiques.

RAGRaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs

GVG (Generative Visual Grounding) utilise un modèle EEG-to-image pour traduire l'activité cérébrale en images visuelles, contournant l'alignement texte seul. Testé sur GVG-X-Omni (170M params tunés) et GVG-Janus (trimodal), le framework améliore la compréhension EEG et la génération visuelle en exploitant les priors visuels des MLLMs.

VisionMulti-agentsEmbeddings
SIG
72
HYP
35
arXiv cs.AI·

Efficient Lookahead Encoding and Abstracted Width for Learning General Policies in Classical Planning

Nouvelle approche pour l'apprentissage de politiques généralisées en planification classique via des réseaux de neurones graphiques relationnels (R-GNNs). Les auteurs introduisent un encodage efficace de la recherche lookahead IW et une abstraction relationnelle pour améliorer l'évolutivité sur le benchmark IPC 2023. Les résultats surpassent le planificateur classique LAMA.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

New Insight of Variance reduce in Zero-Order Hard-Thresholding: Mitigating Gradient Error and Expansivity Contradictions

Nouvel algorithme de hard-thresholding d'ordre zéro avec réduction de variance pour les problèmes d'optimisation ℓ0. Résout la limitation du SZOHT sur le nombre de directions aléatoires en atténuant le conflit entre déviation des gradients ZO et expansivité de l'opérateur. Convergence améliorée validée sur régression ridge et attaques adversariales.

Reinforcement learning
SIG
72
HYP
15