Page 75 sur 149

ToutHaut signalRécent
5934 articles
arXiv cs.AI·

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL entre distributions de tokens. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

VisionReinforcement learningBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models

Framework de fine-tuning multilingue pour MLLMs combinant génération synthétique OCR-traduction, SFT avec LoRA et chain-of-thought visuel structuré. Améliore significativement l'extraction de texte petit, flou, occludé sur reçus, menus, documents en conditions visuelles dégradées. Surpasse GPT-5 et Gemini sur OCR et hallucinations.

VisionRaisonnementFine-tuning
SIG
72
HYP
28
arXiv cs.AI·

Learning Lifted Action Models from Traces with Minimal Information About Actions and States

Apprentissage de modèles d'actions STRIPS+ levés à partir de traces partielles. Les auteurs relaxent les hypothèses précédentes en permettant une observabilité partielle des actions et états. Trois cas sont formalisés : sans observabilité d'état, avec observabilité complète de certains prédicats, avec observabilité locale. Résultats de complétude et expériences inclus.

RaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

Automated Knowledge Component Generation for Interpretable Knowledge Tracing in Coding Problems

Pipeline automatisé basé LLM pour générer et étiqueter des composants de connaissances (KC) sur des problèmes de programmation. Le framework KCGen-KT utilise ces KC générés pour le knowledge tracing. Évaluation sur deux datasets réels : surpasse les méthodes existantes et les KC écrits par humains pour prédire les réponses futures des étudiants.

LlamaGénération de codeÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

VISAFF est un framework pour la reconnaissance d'émotions en conversation (ERC) utilisant des modèles vision-langage. Il combine deux étapes : ancrage affectif centré sur le locuteur et complémentation affective guidée par la fiabilité. L'approche sans fine-tuning exploite les capacités de raisonnement de VLMs gelés, intégrant signaux visuels, textuels et acoustiques pour améliorer la précision.

VisionMulti-agentsPapers
SIG
72
HYP
25
arXiv cs.AI·

GCE-MIL: Faithful and Recoverable Evidence for Multiple Instance Learning in Whole-Slide Imaging

GCE-MIL améliore l'apprentissage multi-instance pour l'analyse d'images histologiques en optimisant directement la qualité des preuves (suffisance, nécessité, récupérabilité) plutôt que de s'appuyer sur les poids d'attention. Sur 81 configurations (9 backbones, 9 datasets), le gain Macro-F1 atteint +0.024 et C-index +0.014, avec inférence 5× plus rapide.

PapersBenchmarksVision
SIG
72
HYP
18
arXiv cs.AI·

DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents

DiagEval est un protocole d'évaluation diagnostique pour les agents GUI testant des logiciels interactifs générés par LLM. Il réutilise les trajectoires échouées pour identifier si les défaillances proviennent de l'évaluateur ou du logiciel. Sur WebDevJudge-Unit et RealDevBench, DiagEval récupère 45.6-62.1% des faux négatifs et améliore la précision de 69.9% à 78.3% et de 65.0% à 81.6%.

Agents IAÉvaluationsGénération de code
SIG
72
HYP
18
arXiv cs.AI·

Evidence-Grounded Frontier Mapping and Agentic Hypothesis Generation in Nanomedicine

pArticleMap combine embeddings d'articles, analyse de graphes de similarité et workflows LLM audités pour générer des hypothèses de recherche fondées sur des preuves en nanomédecine. Le système cible les régions de faible densité et interfaces de clusters pour identifier des directions de recherche. Évaluation rétrospective : 10,8% de taux de récupération d'or, recall@10 de 15,9%, taux de voisinage futur de 61,0%.

Agents IARAGEmbeddings
SIG
72
HYP
28
arXiv cs.AI·

Progressive Generalization Augmentation with Deeply Coupled RND-PPO and Domain-Prioritized Noise Injection for Robust Crop Management Reinforcement Learning

Papier arXiv proposant Progressive Generalization Augmentation (PGA) pour améliorer la robustesse des systèmes RL agricoles. Architecture RND-PPO couplée + injection de bruit hiérarchisée. Résultats : +8.43% rendement, +16.42% efficacité azotée vs BERT-DQN en Floride ; 94.4% rétention performance sous perturbations combinées.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Learning Displacement-Robust Representations for Landslide Early Warning under Rainfall Forecast Uncertainty

Système d'alerte précoce aux glissements de terrain robuste aux incertitudes de prévisions pluviométriques. Utilise l'apprentissage contrastif sensible au mouvement des champs de pluie (RMCL) pour apprendre des représentations stables sous déplacement spatial. Testé sur 2 ans de données au Japon (19 régions) : +37% de précision vs baselines.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Position: AI Evaluations Should be Grounded on a Theory of Capability

Article de position argumentant que les évaluations de modèles IA doivent s'appuyer sur une théorie explicite de la capacité, plutôt que de traiter les scores comme des mesures directes. Les auteurs montrent empiriquement que les performances rapportées dépendent fortement des hypothèses de modélisation et proposent une « Evaluation Card » pour documenter les décisions sous-jacentes.

ÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

FLAG: Foundation model representation with Latent diffusion Alignment via Graph for spatial gene expression prediction

FLAG est un framework basé sur la diffusion latente pour prédire l'expression génique spatiale à partir d'images H&E. Il intègre un encodeur graphique spatial et l'alignement avec un Gene Foundation Model pour résoudre la malédiction de la dimensionnalité génique et préserver les relations biologiques (coordination génique, distribution spatiale). Nouvelles métriques d'évaluation : GSC et SSC.

PapersVisionRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

ProtoSiTex: Learning Semi-Interpretable Prototypes for Multi-label Text Classification

ProtoSiTex est un framework semi-interprétable pour la classification multi-label fine-grained de textes. Il combine une phase de découverte non-supervisée de prototypes avec une phase de classification supervisée utilisant une fonction de perte hiérarchique. Les expériences sur un nouveau benchmark d'avis hôtels et deux benchmarks publics montrent des performances SOTA avec explications fidèles.

ÉvaluationsPapers
SIG
72
HYP
18
arXiv cs.AI·

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Nouvel article arXiv proposant HRC (Hybrid Reward-Cyclic), un modèle de récompense qui décompose explicitement les préférences humaines en composantes transitives (scalaires) et cycliques (vectorielles) via théorie des jeux. Introduit DSPPO (Dynamic Self-Play Preference Optimization) pour l'alignement. Résultats : +1.23% sur RewardBench 2 vs GPM, 44.75% win-rate AlpacaEval 2.0 avec Gemma-2B-it.

Reinforcement learningAlignementPapers
SIG
72
HYP
25
arXiv cs.CL·

From Demographics to Survey Anchors: Evaluating LLM Agents for Modeling Retirement Attitudes

Étude comparative d'agents LLM pour prédire les réponses à l'enquête SHARE (santé, vieillissement, retraite en Europe). Les agents basés uniquement sur des données démographiques (âge, revenu, éducation, etc.) montrent un biais de tendance centrale et une précision irréaliste, tandis que les agents ancrés sur des réponses d'enquête reproduisent mieux les interactions entre facteurs de planification retraite.

Agents IAÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Learning Higher-Order Structure from Incomplete Spatiotemporal Data: Multi-Scale Hypergraph Laplacians with Neural Refinement

Multi-Scale Hypergraph Laplacians (MSHL) : framework en deux étapes pour imputer des données spatiotemporelles incomplètes de réseaux de capteurs. Découverte de structures d'ordre supérieur via hypergraphes multi-échelles, puis raffinement par réseau résiduel conditionné. Garanties théoriques et tests sur réseaux routiers réels avec pannes structurées.

PapersBenchmarksInfrastructure
SIG
72
HYP
15
arXiv cs.AI·

Interactive Evaluation Requires a Design Science

Position paper sur l'évaluation interactive des LLM. Les modèles déployés comme systèmes agissant dans le temps (outils, environnements, agents) nécessitent un paradigme d'évaluation distinct des benchmarks statiques. Les auteurs proposent une taxonomie, des principes de design et des standards de reporting pour évaluer processus, récupérabilité, coordination, robustesse et performance système.

Agents IAÉvaluationsBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents

CMI (Causal Memory Intervention) sélectionne les souvenirs pertinents pour les agents LLM long-horizon via interventions causales contrôlées, plutôt que par similarité sémantique. Benchmark Causal-LoCoMo introduit avec mémoires utiles, distracteurs et souvenirs nuisibles synthétiques. CMI surpasse baselines (vector, graph, reflection, summary) en robustesse face aux mémoires trompeuses.

Agents IARaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

Article arXiv sur l'homogénéisation dans les LLM : les modèles reproduisent et amplifient les biais humains via l'effondrement de mode. Les auteurs proposent un cadre pour caractériser cette homogénéisation en termes de normalité (théorie queer) et introduisent la « xéno-reproduction » pour promouvoir la diversité. Expérience sur Claude 3.5 Haiku montrant les biais de genre.

ClaudeSécurité IAAlignement
SIG
72
HYP
25
arXiv cs.AI·

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment

AutoRubric-T2I est un framework qui synthétise automatiquement des rubrics explicites pour évaluer l'alignement texte-image via des juges Vision-Language Model. Utilisant <0.01% des données d'annotation requises par les modèles de récompense traditionnels, il surpasse les baselines sur MMRB2 et améliore la qualité de génération avec Flow-GRPO sur modèles de diffusion.

Génération d'imagesVisionÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

MetaCogAgent: A Metacognitive Multi-Agent LLM Framework with Self-Aware Task Delegation

MetaCogAgent est un framework multi-agent LLM où chaque agent évalue sa compétence avant d'exécuter une tâche via une Metacognitive Self-Assessment Unit. Le système combine évaluation d'incertitude et profils historiques pour router les tâches vers les agents les plus adaptés. Sur le benchmark MetaCog-Eval (700 tâches), il atteint 82.4% de précision (+8.7% vs baselines) avec 5% moins d'appels API qu'AutoGen.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Attention Hijacking: Response Manipulation Across Queries in Vision-Language Models

Attention Hijacking : une attaque adversariale qui manipule les distributions d'attention internes des modèles vision-langage pour maintenir une réponse cible identique à travers différentes requêtes textuelles. La méthode amplifie l'influence des tokens visuels sur les tokens de réponse tout en supprimant celle des tokens textuels, améliorant la transférabilité cross-query.

VisionSécurité IAPapers
SIG
72
HYP
25
arXiv cs.AI·

AnchorDiff: Topology-Aware Masked Diffusion with Confidence-based Rewriting for Radiology Report Generation

AnchorDiff propose un framework de diffusion masquée pour la génération de rapports radiologiques, intégrant des ancres cliniques dérivées de graphes de connaissances. Contrairement aux modèles autorégressifs traditionnels, cette approche bidirectionnelle utilise une stratégie d'entraînement sensible à la topologie basée sur RadGraph et un raffinement itératif. SOTA sur MIMIC-CXR et MIMIC-RG4.

PapersBenchmarksGénération de code
SIG
72
HYP
18
arXiv cs.CL·

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Étude sur le biais de genre extrinsèque dans les modèles de langage préentraînés en bengali. Construction de 4 datasets annotés manuellement (analyse de sentiment, détection de toxicité, discours haineux, sarcasme) avec perturbations de genre minimales. Proposition de RandSymKL, stratégie de débiaisage combinant divergence KL symétrique et cross-entropy. Code et datasets publics.

BenchmarksSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.AI·

Multi-Paradigm Agent Interaction in Practice:A Systematic Analysis of Generator-Evaluator, ReAct Loop,and Adversarial Evaluation in the buddyMe Framework

buddyMe, framework open-source multi-modèles, intègre trois paradigmes d'interaction d'agents : orchestration multi-agents (Generator-Evaluator), boucles ReAct, interaction augmentée par mémoire. Pipeline 5 étapes testé sur 4 cas réels (guides musée, météo, planification). Résultats : détection 20% omissions requêtes, 30% invocations outils redondantes, consensus adversarial en 2-3 rounds (70% cas).

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Baba in Wonderland: Online Self-Supervised Dynamics Discovery for Executable World Models

Alice est un système d'apprentissage de modèles monde exécutables en ligne qui découvre les dynamiques d'environnement sans descriptions de règles ni signaux de récompense. L'agent induit les lois de transition par interaction seule, en traitant les conflits de préservation comme signal structurel pour raffiner les hypothèses. Évaluation sur Baba in Wonderland montre une amélioration substantielle.

RaisonnementReinforcement learningPapers
SIG
72
HYP
15
arXiv cs.AI·

Recall Isn't Enough: Bounding Commitments in Personalized Language Systems

Article arXiv proposant CBEA+LCV, une méthode pour valider les engagements dans les systèmes de langage personnalisés. Plutôt que traiter la personnalisation comme un problème de rappel, l'approche structure les contraintes avant génération. Sur 360 tests, atteint zéro défaillance à 0.49-0.60 disponibilité contre 0.003-0.092 pour les baselines, avec 74-75% réduction de payload.

RaisonnementÉvaluationsSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Semantic Smoothing via Novel View Synthesis for Robust SAR Image Classification

Défense contre les perturbations adversariales pour la classification SAR via lissage sémantique. Remplace le bruit isotrope par des transformations géométriques générées par synthèse de nouvelles vues, conditionnées sur la géométrie d'acquisition. Améliore la robustesse contre FGSM, PGD, OTSA, SMGAA tout en augmentant la précision en classification nette.

Sécurité IAVisionÉvaluations
SIG
72
HYP
15