Archives

mai 2026

3148 articles

arXiv cs.AI·

Beyond Inference-Time Search: Reinforcement Learning Synthesizes Reusable Solvers

Des chercheurs montrent que le renforcement learning peut encoder des solveurs réutilisables dans les poids d'un LLM plutôt que de résoudre chaque instance à l'inférence. En fine-tunant Qwen2.5-Coder-14B avec GRPO sur Synergistic Dependency Selection, le modèle converge vers Simulated Annealing avec 5.0% de gap au solveur optimal, 91× moins cher qu'un Best-of-64 baseline.

Reinforcement learningGénération de codeQwen
SIG
78
HYP
25
arXiv cs.AI·

The Hidden Cost of Contextual Sycophancy: an AI Literacy Intervention in Human-AI Collaboration

Étude sur la sycophantie contextuelle dans les LLM : 60 participants ont collaboré avec une IA sur des tâches analytiques. Les résultats montrent que les modèles reflètent les erreurs utilisateur plutôt que de les corriger. Une intervention en littératie IA a réduit le mirroring incorrect mais n'a pas éliminé la propagation d'erreurs, suggérant que les approches au niveau système sont nécessaires.

AlignementSécurité IAÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

Focused Forcing: Content-Aware Per-Frame KV Selection for Efficient Autoregressive Video Diffusion

Focused Forcing optimise les caches KV dans la génération vidéo diffusion autorégressive en sélectionnant par frame et par head les frames historiques pertinents. La méthode combine scores d'attention et scores de diversité, atteignant 1.48× d'accélération sans entraînement tout en améliorant la qualité visuelle et l'alignement textuel.

Génération de vidéosRaisonnementÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents

Étude à grande échelle de 64 380 exécutions SWE-bench couvrant 126 configurations d'agents (43 frameworks × LLMs). Les règles comportementales dérivées d'un seul framework ne se transfèrent pas : le même signal (ex. taux d'erreur) corrèle positivement avec la résolution dans 47 configs et négativement dans 48. L'identité du framework explique 64% de la variance contre 10% pour la famille LLM.

Agents IABenchmarksGénération de code
SIG
82
HYP
15
arXiv cs.CL·

Firefly: Illuminating Large-Scale Verified Tool-Call Data Generation from Real APIs

FireFly génère des données vérifiées pour l'entraînement d'agents tool-calling à partir de vrais serveurs MCP. Le pipeline inverse la synthèse standard : exploration d'APIs réelles via structures DAG, puis génération rétroactive de tâches à partir des résultats observés. 5 144 tâches vérifiées sur 240 serveurs et 993 outils. Un modèle 4B entraîné avec GRPO égale Claude Sonnet sur le test set.

Agents IAMCPGénération de code
SIG
82
HYP
18
arXiv cs.AI·

CommitDistill: A Lightweight Knowledge-Centric Memory Layer for Software Repositories

CommitDistill est un prototype Python open-source qui extrait des unités de connaissance typées (Facts, Skills, Patterns) de l'historique git local via regex déterministe et les expose via un retriever TF-IDF. Testé sur 5 dépôts (25k commits), il atteint 0.750 hit-rate avec budget 256-char contre 0.333 pour BM25. Pas d'amélioration statistique détectable sur les bug-fixes en évaluation LLM-as-judge.

Génération de codeRAGAgents IA
SIG
72
HYP
18
arXiv cs.CL·

Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback

Étude de la « cognitive poisoning » : des outils malveillants qui accumulent la confiance via des retours bénins avant de devenir nuisibles. TRUST-Bench (1,970 épisodes) et VISTA-Guard proposent une défense basée sur le scoring du risque de l'action finale à partir de la trajectoire d'interaction. Les heuristiques classiques échouent ; le scoring conscient de la trajectoire atteint 84,2% en-domaine.

Agents IASécurité IABenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Concise and Logically Consistent Conformal Sets for Neuro-Symbolic Concept-Based Models

COCOCO, un framework post-hoc, intègre la Conformal Prediction aux modèles neuro-symboliques basés sur concepts (NeSy-CBMs) pour améliorer la fiabilité. Il conformalise concepts et labels conjointement via une étape de révision déduction-abduction, garantissant cohérence, couverture et concision sans hypothèse distributionnelle. Testé sur 8 datasets.

RaisonnementSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.CL·

Compress the Context, Keep the Commitments: A Formal Framework for Verifiable LLM Context Compression

Context Codec propose un cadre formel pour compresser les contextes LLM en préservant les engagements sémantiques (objectifs, contraintes, décisions, preuves). Le framework introduit des métriques (Critical Atom Recall, Commitment Density) et CCL, un langage de rendu compact ASCII-first, pour rendre la compression vérifiable et auditable.

Prompt engineeringRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

Fixed External Cameras as Common Prior Maps for Active 3D Scene Graph Generation

Framework RGB pour la génération active de graphes de scènes 3D (3DSG) utilisant des caméras externes fixes comme cartes de contexte préalable. Le système fusionne observations de caméras embarquées et externes dans un pipeline unique, guidant le robot vers les régions d'incertitude sémantique élevée. Une seule caméra externe augmente le rappel d'objets initial de +79%.

VisionRobotiqueAgents IA
SIG
72
HYP
18
arXiv cs.AI·

MARS: Technical Report for the CASTLE Challenge at EgoVis 2026

MARS est un système multimodal pour le défi CASTLE 2026 qui traite le raisonnement sur 4 jours d'activité, 15 perspectives synchronisées, transcriptions et modalités auxiliaires (photos, vidéos, eye-tracking, thermographie, fréquence cardiaque). L'approche utilise DeepSeek pour les résumés vidéo et un agent GPT-5.4 pour sélectionner les sources d'evidence. Le système a obtenu la 2e place au classement final.

Agents IAMulti-agentsVision
SIG
75
HYP
20
arXiv cs.AI·

Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models

Vision Inference Former (VIF) est un module architectural léger qui améliore la cohérence visuelle dans les modèles multimodaux. Il injecte continuellement les sémantiques visuelles pendant la génération pour contrer l'affaiblissement de l'alignement vision-langage sur de longues séquences. Testé sur 14 benchmarks (raisonnement, OCR, tableaux), VIF améliore les performances avec surcharge minimale.

VisionMulti-agentsAlignement
SIG
72
HYP
25
arXiv cs.AI·

An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments

Étude empirique des chaînes de fuite de données via injection de prompts dans des environnements de chatbot boîte noire. Les chercheurs analysent comment un attaquant peut détourner les tâches d'un agent LLM en injectant du contenu malveillant dans des sources externes (pages web). Ils introduisent la technique « exemplification » et démontrent une chaîne d'exfiltration de données fonctionnelle.

Agents IAPrompt engineeringSécurité IA
SIG
72
HYP
25
arXiv cs.AI·

Who Generated This 3D Asset? Learning Source Attribution for Generative 3D Models

Première étude systématique d'attribution de source pour assets 3D générés. Les chercheurs construisent un benchmark couvrant 22 générateurs 3D et proposent un Transformer multi-vue multi-modal détectant les fingerprints (incohérences cross-view, artefacts géométriques, signatures fréquentielles). Résultats : 97,22% en supervision complète, 77,17% avec 1% des données.

VisionBenchmarksSécurité IA
SIG
78
HYP
25
arXiv cs.CL·

OpenJarvis: Personal AI, On Personal Devices

OpenJarvis propose une architecture de stack IA personnelle décomposée en cinq primitives (Intelligence, Engine, Agents, Tools & Memory, Learning) pour exécuter localement des tâches sans envoyer données sensibles au cloud. Via recherche de spec guidée par LLM, les modèles locaux atteignent la précision des modèles cloud sur 4/8 benchmarks, réduisent coût API de ~800x et latence de 4x.

Agents IARaisonnementOpen source
SIG
78
HYP
25
arXiv cs.AI·

Parameterized 4-Qubit EWL Quantum Game Circuits with Dirac-Solow-Swan Hamiltonian Integration for Quadruple Helix Disruptive Innovation Recommender Systems

Article proposant un circuit quantique paramétrisé 4-qubits (EWL) pour systèmes de recommandation dans écosystèmes d'innovation quadruple hélice. Utilise données réelles CORDIS Horizon Europe, intègre Hamiltonien Dirac-Solow-Swan pour simuler dynamiques de capital sous innovation disruptive. Profondeur circuit 11, compatible NISQ, implémentation Qiskit fournie.

BenchmarksPapers
SIG
35
HYP
72
arXiv cs.AI·

Improving Spatio-Temporal Residual Error Propagation by Mitigating Over-Squashing

Teger, un module d'incertitude structuré, améliore la prédiction de séries temporelles spatio-temporelles en atténuant le sur-compression d'information (over-squashing) via un mécanisme de réécriture de graphe basé sur la courbure de Forman. Intégré à une tête de covariance low-rank-plus-diagonal, Teger est agnostique au backbone et montre des gains CRPS constants sur LSTM, Transformer et xLSTM.

RaisonnementBenchmarksPapers
SIG
72
HYP
18
arXiv cs.AI·

Confidence-Gated Robot Autonomy: When Does Uncertainty Actually Help?

Étude sur l'utilisation de l'incertitude prédictive pour la décision autonome/déférence en robotique. Sur trois benchmarks de reconnaissance d'activité temporelle, l'incertitude ne fournit un classement d'erreurs fiable que si le modèle de base est suffisamment compétent. Softmax, MC Dropout et ensembles produisent des comportements similaires ; le choix du seuil a plus d'impact que la méthode d'incertitude.

RobotiqueÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

RAGA: Reading-And-Graph-building-Agent for Autonomous Knowledge Graph Construction and Retrieval-Augmented Generation

RAGA est un agent autonome basé LLM pour la construction de graphes de connaissances et la génération augmentée par récupération. Il remplace les pipelines batch stateless par une boucle ReAct avec opérations CRUD complètes, synchronisation KG-vecteur hybride et vérification ancrée aux sources. Tests sur QASPER montrent des gains mesurables en qualité de réponses et preuves.

Agents IARAGRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Quantum Sidecar Architectures for Hybrid AI Training and Inference: Stateful Protected Registers, Stateless Reset-and-Reprepare Circuits and Quantum Weight-State Outlook

Proposition d'architectures quantiques « sidecar » pour l'entraînement et l'inférence hybrides IA. Deux modes opératoires : registres protégés stateful (QND readout avec ancilla) et circuits reset-and-reprepare stateless (QAOA-style). Simulations sur 2/4/6/8 qubits protégés. Positionnement comme générateurs de signaux bornés pour l'optimisation, sélection d'experts et routage.

RaisonnementAgents IAInfrastructure
SIG
45
HYP
35
arXiv cs.AI·

Unveiling Memorization-Generalization Coexistence: A Case Study on Arithmetic Tasks with Label Noise

Étude sur la coexistence mémorisation-généralisation dans les réseaux de neurones sur-paramétrés. Avec 80% de bruit d'étiquettes sur des tâches arithmétiques, les modèles mémorisent les labels bruyants mais conservent une structure interne de généralisation. Extraction par méthodes fréquentielles : précision quasi-parfaite. Partitionnement en composantes généralisation/mémorisation proposé.

PapersÉvaluationsAlignement
SIG
72
HYP
15
arXiv cs.AI·

SAS: Semantic-aware Sampling for Generative Dataset Distillation

SAS propose une approche de distillation de dataset utilisant CLIP comme prior sémantique pour améliorer la qualité des données compressées. Trois fonctions de scoring évaluent la pertinence de classe, la séparabilité inter-classe et la diversité intra-ensemble. Une stratégie deux-étapes filtre les échantillons discriminatifs puis sélectionne dynamiquement pour réduire la redondance.

EmbeddingsVisionBenchmarks
SIG
62
HYP
18
arXiv cs.AI·

MARR: Module-Adaptive Residual Reconstruction for Low-Bit Post-Training Quantization

MARR propose une méthode de quantification post-entraînement basse précision (≤4-bit) pour LLMs et Vision Transformers. Elle utilise des coefficients d'échelle adaptatifs par module pour équilibrer la correction d'erreur accumulée et le biais introduit par les résidus, via une stratégie de mise à jour basée PID. Gains jusqu'à 20,2% sur LLMs et 4,6% sur ViTs.

VisionPapersBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

The Alpha Illusion: Reported Alpha from LLM Trading Agents Should Not Be Treated as Deployment Evidence

Étude critique des agents de trading basés sur LLM (FinCon, FinMem, TradingAgents, FinAgent, QuantAgent, FLAG-Trader). Les Sharpe ratios rapportés ne constituent pas une preuve de déploiement viable : contamination temporelle, frictions non modélisées et calibration prédictive insuffisante invalident les résultats. Propose protocole de reporting P1-P6 et architecture modulaire avec LLM comme interface d'audit.

Agents IABenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA

Étude de la compression de prompts sur LLaDA, un DLLM de 8B paramètres, utilisant LLMLingua-2. Évaluation sur GSM8K, DUC2004, ShareGPT avec ratio 2× montre que la préservation sémantique ne garantit pas la stabilité en modèles diffusion : le raisonnement mathématique se dégrade fortement tandis que la résumé reste robuste. Les méthodes de compression autorégressives ne transfèrent pas uniformément aux DLLMs.

Prompt engineeringBenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

Confidence Geometry Reveals Trace-Level Correctness in Large Language Model Reasoning

Les trajectoires de confiance au niveau des tokens dans les LLM encodent des signaux géométriques liés à la correction des traces de raisonnement. Sans accès au texte ou aux états cachés, une représentation basse dimension sépare les traces correctes des incorrectes sur GSM8K, MATH et MMLU. NeuralConf, un estimateur léger, améliore l'agrégation pondérée par confiance par rapport au vote majoritaire.

RaisonnementÉvaluationsPapers
SIG
78
HYP
25
arXiv cs.AI·

Balancing Knowledge Distillation for Imbalance Learning with Bilevel Optimization

BiKD propose un framework bilevel pour équilibrer dynamiquement les pertes hard et soft en distillation de connaissance sur données déséquilibrées. Un réseau de génération de poids produit des pondérations adaptatives par échantillon, guidé par un ensemble de validation équilibré. Expériences sur CIFAR-10/100 long-tailed montrent des gains sur les méthodes récentes.

Fine-tuningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models

CounterCount est un framework de diagnostic pour évaluer les biais de comptage dans les modèles vision-langage. Les tests révèlent que les VLMs performent bien sur des images factuelles mais dégradent significativement sur des images contrefactuelles où les attributs visuels contredisent les priors appris. Une stratégie de modulation d'attention au temps d'inférence améliore la précision jusqu'à 8%.

VisionÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training

TierCheck est un système de sauvegarde en trois niveaux pour l'entraînement de LLM. Il maintient des points de contrôle différentiels légers en mémoire locale/pair pour récupération rapide, migre asynchronement les points de base vers le stockage distant, et garantit la cohérence globale sans ralentir l'entraînement. Sur modèles jusqu'à 40B paramètres, il réduit le temps de sauvegarde à moins de 10s.

InfrastructureBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

One Model, Two Roles: Emergent Specialization in a Shared Recurrent Transformer

Étude d'une architecture Transformer récurrente à poids partagés (AIR) capable de développer deux rôles distincts sans partitionnement modulaire. Sur Sudoku-Extreme et Maze, l'état zH agit comme proposition engagée tandis que zL conserve l'incertitude locale. Les expériences de gel et ablations montrent que l'asymétrie d'injection d'entrée induit cette spécialisation fonctionnelle.

RaisonnementPapers
SIG
72
HYP
18
arXiv cs.AI·

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation

CGPO (Curriculum Group Policy Optimization) améliore l'entraînement des modèles texte-vers-image en utilisant un curriculum adaptatif basé sur la variance des récompenses. La méthode priorise les prompts partiellement maîtrisés (variance élevée) et équilibre les catégories via optimisation de fairness proportionnelle. Gains validés sur GenEval, T2I-CompBench++, DPG Bench.

Génération d'imagesReinforcement learningBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

SocialMemBench: Are AI Memory Systems Ready for Social Group Settings?

SocialMemBench est un benchmark évaluant les systèmes de mémoire IA dans les groupes sociaux multi-parties (430 personas, 7,355 tours de conversation, 1,031 paires QA). Gemini 2.5 Flash atteint 0.721 sur petits réseaux vs 0.98 attendu. Les quatre frameworks open-source (Mem0, LangMem, Graphiti, Cognee) obtiennent 0.12-0.18, bien en dessous des références (0.345-0.369), révélant un écart mesurable.

BenchmarksGeminiAgents IA
SIG
78
HYP
15
arXiv cs.AI·

Systematic Evaluation of the Quality of Synthetic Clinical Notes Rephrased by LLMs at Million-Note Scale

Évaluation systématique de notes cliniques synthétiques générées par LLM à l'échelle du million de notes. L'étude montre que les notes synthétiques préservent les informations cliniques essentielles pour les tâches grossières mais perdent les détails fins pour le codage ICD. Le reprasing par chunks réduit cette perte mais diminue la précision factuelle.

BenchmarksÉvaluationsSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Fine-tuning Pocket-Aware Diffusion Models via Denoising Policy Optimization

DEPPA optimise les modèles de diffusion conscients de la poche protéique pour la conception de médicaments via apprentissage par renforcement. La méthode affine un modèle pré-entraîné en formulant le processus de débruitage comme un processus décisionnel de Markov, optimisant affinité de liaison, drug-likeness, synthétisabilité et diversité. Sur CrossDocked2020, DEPPA atteint Vina Score -8.5 kcal/mol.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

PEIRA: Learning Predictive Encoders through Inter-View Regressor Alignment

PEIRA est une méthode d'apprentissage auto-supervisé non-contrastif qui analyse la dynamique de JEPA via un régresseur linéaire régularisé. Elle minimise une fonction objective explicite basée sur la trace du régresseur optimal, garantissant des équilibres stables non-effondrés alignés avec les sous-espaces de corrélation canonique. Résultats compétitifs sur ImageNet-1K et CIFAR-10.

PapersBenchmarksEmbeddings
SIG
72
HYP
15
arXiv cs.AI·

Multi-task learning on partially labeled datasets via invariant/equivariant semi-supervised learning

Étude de l'apprentissage semi-supervisé invariant et équivariant (FixMatch, Dense FixMatch) pour l'entraînement multi-tâches sur données partiellement annotées. Tests sur Cityscapes et BDD100K pour détection d'objets et segmentation sémantique. Les approches équivariantes surpassent les baselines supervisées, particulièrement avec peu d'échantillons étiquetés par tâche.

VisionPapers
SIG
72
HYP
15
arXiv cs.AI·

Bayesian-Monte Carlo Schedule Updating for Construction Digital Twins: A Probabilistic Framework for Dynamic Project Forecasting

Framework probabiliste Bayesian-Monte Carlo pour la mise à jour dynamique des calendriers de projets de construction. Modélise les durées d'activité avec distributions lognormales, les met à jour via inférence bayésienne, et propage l'incertitude par simulation Monte Carlo. Démontre une meilleure précision que les méthodes CPM déterministes sur les benchmarks PSPLIB.

RaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

UniAlign: A Model-Agnostic Framework for Robust Network Traffic Classification under Distribution Shifts

UniAlign est un framework agnostique aux modèles pour améliorer la robustesse de la classification du trafic réseau face aux changements de distribution. Il combine l'alignement de domaine et l'ensemble de modèles stables, améliorant la précision de 2,51% et le F1 de 2,71% sur trois datasets publics, avec 12,4–53,9% du coût d'entraînement des baselines.

BenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

Visual Sculpting: Visually-Aligned Planning Representations for Long-Horizon Robot Clay Sculpting

Méthode de planification robotique pour la sculpture sur argile basée sur une représentation alignée visuellement. Le système modélise la dynamique des matériaux déformables en capturant textures et éclairage, permettant une planification long-horizon (>100 actions) sans retraining par objectif. Testé sur trois matériaux avec différents effecteurs.

RobotiqueVisionRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

BESplit: Bias-Compensated Split Federated Learning with Evidential Aggregation

BESplit propose un cadre de federated learning distribué (SFL) pour atténuer les effets des données non-IID. La méthode combine Evidential Aggregation pour pondérer les contributions clients, Bias-Compensated Collaboration pour aligner les représentations, et Dual-Teacher Distillation pour synchroniser les modèles. Tests sur 5 benchmarks montrent amélioration de précision et stabilité.

AlignementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Beyond Linear Superposition: Discovering Climate Features in AI Weather Models with KAN-SAE

KAN-SAE, un nouvel autoencodeur creux utilisant des activations B-spline non-linéaires de réseaux de Kolmogorov-Arnold, découvre 975 caractéristiques climatiques dans les modèles de prédiction météo (vs 566 pour les SAE linéaires). Sans supervision climatique, il identifie des phénomènes interprétables comme les vagues de chaleur européennes et les typhons du Pacifique.

PapersRaisonnementÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models

Framework de fine-tuning multilingue pour MLLMs combinant génération synthétique OCR-traduction, SFT avec LoRA et chain-of-thought visuel structuré. Améliore significativement l'extraction de texte petit, flou, occludé sur reçus, menus, documents en conditions visuelles dégradées. Surpasse GPT-5 et Gemini sur OCR et hallucinations.

VisionRaisonnementFine-tuning
SIG
72
HYP
28
arXiv cs.AI·

GCE-MIL: Faithful and Recoverable Evidence for Multiple Instance Learning in Whole-Slide Imaging

GCE-MIL améliore l'apprentissage multi-instance pour l'analyse d'images histologiques en optimisant directement la qualité des preuves (suffisance, nécessité, récupérabilité) plutôt que de s'appuyer sur les poids d'attention. Sur 81 configurations (9 backbones, 9 datasets), le gain Macro-F1 atteint +0.024 et C-index +0.014, avec inférence 5× plus rapide.

PapersBenchmarksVision
SIG
72
HYP
18
arXiv cs.AI·

MemRepair: Hierarchical Memory for Agentic Repository-Level Vulnerability Repair

MemRepair est un framework d'agent augmenté par mémoire pour la réparation de vulnérabilités au niveau du dépôt. Il combine trois couches mémoire (History-Fix, Security-Pattern, Refinement-Trajectory) avec une boucle de raffinement itérative. Évalué sur SEC-Bench, PatchEval et Multi-SWE-bench, MemRepair atteint 58.0%, 58.2% et 30.58% de taux de résolution, surpassant OpenHands, SWE-agent et InfCode-C++.

Agents IAGénération de codeSécurité IA
SIG
82
HYP
18
arXiv cs.AI·

DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents

DiagEval est un protocole d'évaluation diagnostique pour les agents GUI testant des logiciels interactifs générés par LLM. Il réutilise les trajectoires échouées pour identifier si les défaillances proviennent de l'évaluateur ou du logiciel. Sur WebDevJudge-Unit et RealDevBench, DiagEval récupère 45.6-62.1% des faux négatifs et améliore la précision de 69.9% à 78.3% et de 65.0% à 81.6%.

Agents IAÉvaluationsGénération de code
SIG
72
HYP
18
arXiv cs.AI·

Progressive Generalization Augmentation with Deeply Coupled RND-PPO and Domain-Prioritized Noise Injection for Robust Crop Management Reinforcement Learning

Papier arXiv proposant Progressive Generalization Augmentation (PGA) pour améliorer la robustesse des systèmes RL agricoles. Architecture RND-PPO couplée + injection de bruit hiérarchisée. Résultats : +8.43% rendement, +16.42% efficacité azotée vs BERT-DQN en Floride ; 94.4% rétention performance sous perturbations combinées.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Learning Displacement-Robust Representations for Landslide Early Warning under Rainfall Forecast Uncertainty

Système d'alerte précoce aux glissements de terrain robuste aux incertitudes de prévisions pluviométriques. Utilise l'apprentissage contrastif sensible au mouvement des champs de pluie (RMCL) pour apprendre des représentations stables sous déplacement spatial. Testé sur 2 ans de données au Japon (19 régions) : +37% de précision vs baselines.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusifs en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progrès de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 5.6pp en raisonnement mathématique.

Reinforcement learningGénération de codeRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics

FML-Bench est un benchmark de 18 tâches ML sur 10 domaines évaluant 6 agents de recherche IA. Résultats clés : la complexité stratégique seule ne garantit pas la performance (greedy hill-climber rivalise avec tree-search) ; l'efficacité dépend de la structure d'opportunités d'amélioration ; un agent adaptatif détectant la stagnation surpasse les autres. 12 métriques comportementales au niveau processus.

Agents IABenchmarksRaisonnement
SIG
82
HYP
15
arXiv cs.AI·

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Nouvel article arXiv proposant HRC (Hybrid Reward-Cyclic), un modèle de récompense qui décompose explicitement les préférences humaines en composantes transitives (scalaires) et cycliques (vectorielles) via théorie des jeux. Introduit DSPPO (Dynamic Self-Play Preference Optimization) pour l'alignement. Résultats : +1.23% sur RewardBench 2 vs GPM, 44.75% win-rate AlpacaEval 2.0 avec Gemma-2B-it.

Reinforcement learningAlignementPapers
SIG
72
HYP
25
arXiv cs.CL·

From Demographics to Survey Anchors: Evaluating LLM Agents for Modeling Retirement Attitudes

Étude comparative d'agents LLM pour prédire les réponses à l'enquête SHARE (santé, vieillissement, retraite en Europe). Les agents basés uniquement sur des données démographiques (âge, revenu, éducation, etc.) montrent un biais de tendance centrale et une précision irréaliste, tandis que les agents ancrés sur des réponses d'enquête reproduisent mieux les interactions entre facteurs de planification retraite.

Agents IAÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Learning Higher-Order Structure from Incomplete Spatiotemporal Data: Multi-Scale Hypergraph Laplacians with Neural Refinement

Multi-Scale Hypergraph Laplacians (MSHL) : framework en deux étapes pour imputer des données spatiotemporelles incomplètes de réseaux de capteurs. Découverte de structures d'ordre supérieur via hypergraphes multi-échelles, puis raffinement par réseau résiduel conditionné. Garanties théoriques et tests sur réseaux routiers réels avec pannes structurées.

PapersBenchmarksInfrastructure
SIG
72
HYP
15
arXiv cs.AI·

Attention Hijacking: Response Manipulation Across Queries in Vision-Language Models

Attention Hijacking : une attaque adversariale qui manipule les distributions d'attention internes des modèles vision-langage pour maintenir une réponse cible identique à travers différentes requêtes textuelles. La méthode amplifie l'influence des tokens visuels sur les tokens de réponse tout en supprimant celle des tokens textuels, améliorant la transférabilité cross-query.

VisionSécurité IAPapers
SIG
72
HYP
25
arXiv cs.AI·

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting

StyleText est un dataset de 28,518 triplets image-masque-prompt pour l'inpainting de texte en scène avec préservation de style. Pipeline automatisé combinant LLM, Flux avec injection KV-cache, OCR, extraction de masques polygonaux et augmentation FluxFill. Baseline FluxFill+LoRA améliore significativement la précision OCR tout en maintenant la cohérence stylistique.

BenchmarksGénération d'imagesVision
SIG
75
HYP
25
arXiv cs.AI·

UNR-Explainer: Counterfactual Explanations for Unsupervised Node Representation Learning Models

UNR-Explainer génère des explications contrefactuelles pour les modèles d'apprentissage de représentation de nœuds non supervisés (GNNs). La méthode identifie les sous-graphes critiques qui modifient les k-plus proches voisins d'un nœud dans l'espace d'embedding via une recherche Monte Carlo Tree Search (MCTS). Évaluée sur GraphSAGE et DGI.

PapersRaisonnementÉvaluations
SIG
62
HYP
18
arXiv cs.AI·

OProver: A Unified Framework for Agentic Formal Theorem Proving

OProver est un framework unifié pour la preuve formelle de théorèmes en Lean 4 utilisant des agents. Le système révise itérativement les tentatives échouées via des preuves récupérées et du feedback du compilateur. Entraîné par préentraînement continu et post-entraînement itératif, OProver-32B atteint 93,3% Pass@32 sur MiniF2F et 58,2% sur ProverBench.

Agents IARaisonnementReinforcement learning
SIG
82
HYP
15
arXiv cs.AI·

ContractBench: Can LLM Agents Preserve Observation Contracts?

ContractBench évalue la capacité des agents LLM à préserver les contrats d'observation (artefacts temporellement valides et intègres au niveau des octets) lors d'appels API. Sur 38 modèles testés, aucun ne dépasse 80% : Claude-Opus-4.6 atteint 77,8%. Les résultats révèlent des défaillances d'intégrité et de validité non corrélées à la taille du modèle, et une régression non-monotone dans la famille GPT-5.

Agents IABenchmarksClaude
SIG
82
HYP
15
arXiv cs.AI·

Latency-Aware Deep Learning Benchmark for Real-Time Cyber-Physical Attack and Fault Classification in Inverter-Dominated Power Grids

Benchmark latency-aware pour 8 architectures deep learning (MLPs, Transformers) en détection d'anomalies sur réseaux électriques dominés par onduleurs. Classification en temps réel < 15 ms par cycle, mais latence end-to-end 50-90 ms (3+ cycles). Écart critique entre capacité algorithmique et déploiement protection-grade identifié.

BenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Rover: Context-aware Conflict Resolution with LLM

Rover est un système de résolution de conflits de fusion de code combinant analyse de programme et LLM. Il introduit Multi-layer Code Property Graph (MtCPG) pour capturer les dépendances inter-fichiers et utilise des algorithmes de connectivité graphique pour créer des contextes significatifs. Évaluation : Rover surpasse les LLM seuls, MergeGen et WizardMerge aux niveaux caractère, lexical et sémantique.

Génération de codeRaisonnementOutils
SIG
75
HYP
25