Page 71 sur 148

ToutHaut signalRécent
5898 articles
arXiv cs.CL·

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

CodeBind propose un framework d'alignement multimodal via codebook compositif partagé-spécifique. La méthode décompose les représentations en composantes sémantiques partagées et spécifiques à chaque modalité, validée sur 9 modalités (texte, image, vidéo, audio, profondeur, thermique, tactile, nuage de points 3D, EEG) avec SOTA en classification et retrieval.

EmbeddingsVisionRobotique
SIG
72
HYP
25
arXiv cs.CL·

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée testant 10 catégories de tâches sur OmniGibson. Les expériences montrent que l'exploration active surpasse les approches passives, mais les modèles échouent principalement par « action blindness » : mauvais choix d'action → mauvaises observations → erreurs en cascade. Les modèles manquent de métacognition contrairement aux humains.

BenchmarksVisionRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning

AdaSwitch propose un paradigme collaboratif cloud-local où un agent local (petit LLM) traite les tâches simples et demande assistance à un agent cloud (grand LLM) pour le raisonnement complexe. Le mécanisme adaptatif détecte les erreurs locales et bascule dynamiquement. Évaluation sur 7 benchmarks (raisonnement mathématique, QA complexe) montre amélioration de performance avec réduction des coûts computationnels.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Multimodal Cultural Heritage Knowledge Graph Extension with Language and Vision Models

Nouvelle approche pour étendre les graphes de connaissances (KG) du patrimoine culturel français. Les auteurs introduisent WJoconde, un KG multimodal intégrant texte et images, avec trois variantes et un benchmark pour la complétion de KG. Ils proposent un framework combinant LLM et Vision-Language Models pour extraire et valider automatiquement les données, améliorant la fiabilité du KG.

VisionRAGBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Rethinking 1-bit Optimization Leveraging Pre-trained Large Language Models

Nouvelle méthode de quantification 1-bit pour LLM exploitant les modèles pré-entraînés. Utilise un entraînement progressif cohérent (forward/backward) avec initialisation binary-aware et compensation dual-scaling pour convertir les poids en représentation binarisée. Réduit coûts d'entraînement et dégradation de précision comparé aux approches existantes.

Fine-tuningBenchmarksInfrastructure
SIG
72
HYP
18
arXiv cs.CL·

When TableQA Meets Noise: A Dual Denoising Framework for Complex Questions and Large-scale Tables

EnoTab est un framework de débruitage dual pour le TableQA (question-answering sur tables). Il décompose les questions complexes en unités sémantiques minimales et élagage les tables volumineuses via un arbre de preuves explicite, avec mécanisme de rollback pour gérer les états anormaux. Résultats probants sur questions complexes et tables à grande échelle.

RaisonnementRAGBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

NeuSymMS: A Hybrid Neuro-Symbolic Memory System for Persistent, Self-Curating LLM Agents

NeuSymMS est un système de mémoire hybride neuro-symbolique pour agents LLM. Il couple l'extraction neurale de faits depuis le dialogue avec un système expert CLIPS qui classe, déduplique et réconcilie les faits. Les connaissances sont stockées sous forme de triplets sujet-relation-valeur en base de données relationnelle, avec mémoire court/long terme et promotion basée sur l'accès.

Agents IARAGRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Multi-Party Multi-Objective Optimization as Consensus Search: Runtime Analysis of Cross-Party Recombination

Étude théorique des algorithmes évolutionnaires multi-objectifs pour l'optimisation multi-parties (MPMOP). Sur le benchmark MP-JCG, une mutation guidée par les gains requiert Θ(n²) évaluations pour franchir une région critique, tandis que CPR-NSGA-II atteint O(n log n) via recombination cross-party. Analyse de runtime sur BPBOMST (problème d'arbre couvrant minimum multi-parties) avec bornes paramétrées.

Multi-agentsBenchmarksPapers
SIG
72
HYP
08
arXiv cs.CL·

Evaluating Language Models' Evaluations of Games

Étude arXiv évaluant comment les modèles de langage et de raisonnement jugent les jeux de plateau. Sur 100+ jeux et 450 jugements humains, les modèles de raisonnement s'alignent mieux aux humains que les LLM classiques pour évaluer l'équité et le plaisir des jeux. Paradoxe : plus les modèles approchent l'optimalité théorique des jeux, moins ils correspondent aux préférences humaines.

RaisonnementÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Unlocking the Potential of Diffusion Language Models through Template Infilling

Template Infilling (TI) est une méthode de conditioning pour les Diffusion Language Models qui aligne des ancres structurelles sur l'ensemble de l'espace de réponse, remplaçant le prefix prompting. Évaluée sur raisonnement mathématique, génération de code et planification, TI améliore les performances de 9,40% et accélère la génération multi-token.

Prompt engineeringGénération de codeRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un framework d'évaluation pour l'IA générative qui combine rubrics multi-dimensionnels conçus par experts et calibrage d'LLM évaluateurs sur un petit ensemble d'annotations de haute qualité. Testé sur génération de texte et images, QQJ montre meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles et les évaluateurs LLM non structurés.

ÉvaluationsBenchmarksAlignement
SIG
72
HYP
28
arXiv cs.AI·

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Nouvelle méthode IBAL pour renforcer la robustesse du MARL face aux perturbations d'interactions inter-agents. Le framework utilise une approche théorique de l'information pour construire des attaques qui dégradent la coordination en perturbant observations et actions, puis entraîne les agents à rester fiables. Amélioration démontrée sur baselines existants et scénarios d'agents manquants.

Multi-agentsReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

Reasoning Before Diagnosis: Physician-Inspired Structured Thinking for ECG Classification

CardioThink, un framework MLLM inspiré par la pratique médicale, structure le diagnostic ECG en étapes explicites (rythme, conduction, morphologie, impression) pour améliorer l'interprétabilité. L'optimisation Structured Set Policy Optimization (SSPO) aligne le raisonnement clinique sans annotations manuelles, surpassant les approches directes sur plusieurs benchmarks ECG.

RaisonnementVisionReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Modélisation de la difficulté d'items sans réponses pour questions à choix multiples via transformers fine-tunés. Approche end-to-end sur le texte des items éliminant l'ingénierie manuelle des features. Variante multi-tâche avec objectif auxiliaire QA améliore significativement les petits échantillons.

Fine-tuningBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

GraphMind: Theorem Selection and Conclusion Generation Framework with Dynamic GNN for LLM Reasoning

GraphMind combine GNN et LLM pour le raisonnement multi-étapes en mathématiques. Le framework modélise le processus de raisonnement comme un graphe hétérogène évolutif où nœuds (conditions, théorèmes, conclusions) et arêtes (dépendances logiques) permettent la sélection dynamique de théorèmes et la génération itérative de conclusions. Résultats améliorés sur benchmarks QA.

RaisonnementAgents IABenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning

Distinguishable Deletion (D²) unifie suppression de connaissance et refus pour l'oubli des LLM. La méthode utilise un index énergétique pour effacer les connaissances indésirables dans les représentations latentes plutôt que des tokens spécifiques, évitant la suppression biaisée et la réémergence de contenu nuisible. Energy-based Unlearning Alignment (EUA) applique ce mécanisme à l'entraînement et l'inférence.

Sécurité IAAlignementPapers
SIG
72
HYP
25
arXiv cs.AI·

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

CAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.

BenchmarksÉvaluationsRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation

Étude évaluant 8 modèles multimodaux (Gemini-2.5-Pro, o3, etc.) sur leur robustesse face aux biais cognitifs dans des vidéos courtes chinoises contenant de la désinformation. Dataset de 200 vidéos annotées manuellement couvrant 4 domaines sanitaires. Gemini-2.5-Pro obtient 71.5/100, o3 35.2. Les modèles sont vulnérables aux indices sociaux comme les IDs de chaînes autoritaires.

VisionBenchmarksSécurité IA
SIG
72
HYP
25
arXiv cs.CL·

ADMEDTAGGER: an annotation framework for distillation of expert knowledge for the Polish medical language

Framework d'annotation pour distiller les connaissances expertes d'un LLM multilingue (Llama3.1) afin d'entraîner des classifieurs BERT pour le tagging médical en polonais. DistilBERT atteint F1 > 0.80 sur 5 catégories cliniques (Radiologie, Oncologie, Cardiologie, Hypertension, Pathologie) avec 500× moins de paramètres et 300× moins de VRAM qu'un LLM.

LlamaFine-tuningGénération de code
SIG
72
HYP
18
arXiv cs.AI·

From Imitation to Interaction: Mastering Game of Schnapsen with Shallow Reinforcement Learning

Des agents de réseaux de neurones peu profonds maîtrisent le jeu de cartes Schnapsen via apprentissage par renforcement. RLBot, entraîné par mises à jour Monte Carlo asynchrones, surpasse MLPBot (imitation supervisée) et bat significativement RdeepBot, un baseline basé sur la recherche. La combinaison d'une fonction de valeur apprise avec une recherche plus profonde en jeu améliore les performances.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework

COMPACT, un framework de distillation CoT multi-enseignants, fusionne adaptativement les supervisions de plusieurs LLMs vers des modèles compacts. Il pondère dynamiquement les gradients des enseignants via trois métriques : consensus basé graphe, adaptabilité par information mutuelle, et difficulté basée perte. Résultats SOTA sur plusieurs benchmarks sans oubli catastrophique.

RaisonnementFine-tuningPapers
SIG
72
HYP
25
arXiv cs.AI·

Latent Heuristic Search: Continuous Optimization for Automated Algorithm Design

Méthode de découverte automatique d'heuristiques via optimisation continue dans un espace latent. Un encodeur mappe des programmes discrets en embeddings continus, un modèle de substitution différentiable prédit les performances, et un flux de normalisation invertible régularise la trajectoire d'optimisation. Évaluation sur TSP, CVRP, KSP et Online Bin Packing avec résultats compétitifs aux baselines évolutionnaires.

Agents IARaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

ECC, un algorithme de clustering de requêtes, calibre les embeddings sémantiques via comparaisons de modèles pour aligner la sémantique de surface avec les capacités latentes des LLM. Utilisant un modèle Bradley-Terry, il améliore le classement des capacités de 17,64 points vs baselines humaines et 18,02 points vs embeddings, avec applications au routage de requêtes.

ÉvaluationsBenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

New Insight of Variance reduce in Zero-Order Hard-Thresholding: Mitigating Gradient Error and Expansivity Contradictions

Nouvel algorithme de hard-thresholding d'ordre zéro avec réduction de variance pour les problèmes d'optimisation ℓ0. Résout la limitation du SZOHT sur le nombre de directions aléatoires en atténuant le conflit entre déviation des gradients ZO et expansivité de l'opérateur. Convergence améliorée validée sur régression ridge et attaques adversariales.

Reinforcement learning
SIG
72
HYP
15
arXiv cs.AI·

Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA

Étude de la compression de prompts sur LLaDA, un DLLM de 8B paramètres, utilisant LLMLingua-2. Évaluation sur GSM8K, DUC2004, ShareGPT avec ratio 2× montre que la préservation sémantique ne garantit pas la stabilité en modèles diffusion : le raisonnement mathématique se dégrade fortement tandis que la résumé reste robuste. Les méthodes de compression autorégressives ne transfèrent pas uniformément aux DLLMs.

Prompt engineeringBenchmarksRaisonnement
SIG
72
HYP
15