Page 73 sur 148

ToutHaut signalRécent
5900 articles
arXiv cs.AI·

CommitDistill: A Lightweight Knowledge-Centric Memory Layer for Software Repositories

CommitDistill est un prototype Python open-source qui extrait des unités de connaissance typées (Facts, Skills, Patterns) de l'historique git local via regex déterministe et les expose via un retriever TF-IDF. Testé sur 5 dépôts (25k commits), il atteint 0.750 hit-rate avec budget 256-char contre 0.333 pour BM25. Pas d'amélioration statistique détectable sur les bug-fixes en évaluation LLM-as-judge.

Génération de codeRAGAgents IA
SIG
72
HYP
18
arXiv cs.AI·

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

ISEP propose une méthode d'apprentissage par renforcement hors ligne qui élargit implicitement le support des actions en interpolant entre données en distribution et échantillons de politique. Un mécanisme stochastique alterne entre clonage conservateur et signaux d'expansion optimiste, implémenté via Flow Matching conditionnel avec guidance sans classifieur.

Reinforcement learningPapers
SIG
72
HYP
15
arXiv cs.AI·

One Model, Two Roles: Emergent Specialization in a Shared Recurrent Transformer

Étude d'une architecture Transformer récurrente à poids partagés (AIR) capable de développer deux rôles distincts sans partitionnement modulaire. Sur Sudoku-Extreme et Maze, l'état zH agit comme proposition engagée tandis que zL conserve l'incertitude locale. Les expériences de gel et ablations montrent que l'asymétrie d'injection d'entrée induit cette spécialisation fonctionnelle.

RaisonnementPapers
SIG
72
HYP
18
arXiv cs.AI·

The Hidden Cost of Contextual Sycophancy: an AI Literacy Intervention in Human-AI Collaboration

Étude sur la sycophantie contextuelle dans les LLM : 60 participants ont collaboré avec une IA sur des tâches analytiques. Les résultats montrent que les modèles reflètent les erreurs utilisateur plutôt que de les corriger. Une intervention en littératie IA a réduit le mirroring incorrect mais n'a pas éliminé la propagation d'erreurs, suggérant que les approches au niveau système sont nécessaires.

AlignementSécurité IAÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation

CGPO (Curriculum Group Policy Optimization) améliore l'entraînement des modèles texte-vers-image en utilisant un curriculum adaptatif basé sur la variance des récompenses. La méthode priorise les prompts partiellement maîtrisés (variance élevée) et équilibre les catégories via optimisation de fairness proportionnelle. Gains validés sur GenEval, T2I-CompBench++, DPG Bench.

Génération d'imagesReinforcement learningBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Diffusion Attention Expert Model for Predicting and Semi-automatic Localizing STAS in Lung Cancer Histopathological Images

DAEM (Diffusion Attention Expert Model) détecte les STAS (spread through air spaces) dans les images histopathologiques de cancer du poumon. Le modèle atteint AUC 0.8946 sur coupes congelées et 0.9112 sur coupes en paraffine. Validation sur 8 institutions externes. Localisation semi-automatique et biomarqueurs TME identifiés.

VisionBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Systematic Evaluation of the Quality of Synthetic Clinical Notes Rephrased by LLMs at Million-Note Scale

Évaluation systématique de notes cliniques synthétiques générées par LLM à l'échelle du million de notes. L'étude montre que les notes synthétiques préservent les informations cliniques essentielles pour les tâches grossières mais perdent les détails fins pour le codage ICD. Le reprasing par chunks réduit cette perte mais diminue la précision factuelle.

BenchmarksÉvaluationsSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

SkillsVote est un framework de gouvernance du cycle de vie des skills d'agents IA, depuis leur collecte jusqu'à leur évolution. Il profile un corpus open-source à l'échelle du million pour la qualité et la vérifiabilité, puis décompose les trajectoires en subtasks attribuées aux skills. Amélioration : +7.9pp sur Terminal-Bench 2.0 (GPT-5.2) et +2.6pp sur SWE-Bench Pro.

Agents IABenchmarksGénération de code
SIG
72
HYP
25
arXiv cs.AI·

Hierarchical Two-Stage Framework for Environment-Aware Long-Horizon Vessel Trajectory Prediction

Framework hiérarchique deux étages pour prédire les trajectoires de navires sur long horizon en conditions océaniques réelles. Combine prédicteur long-terme avec prédicteur court-terme basé sur Graph Transformer spatio-temporel sur grille maritime. Module environnemental intègre courants, vent, hauteur de vague via attention cross-modale. Résultats : 25% meilleur ADE, 17% meilleur FDE sur données CTS Australie.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Fine-tuning Pocket-Aware Diffusion Models via Denoising Policy Optimization

DEPPA optimise les modèles de diffusion conscients de la poche protéique pour la conception de médicaments via apprentissage par renforcement. La méthode affine un modèle pré-entraîné en formulant le processus de débruitage comme un processus décisionnel de Markov, optimisant affinité de liaison, drug-likeness, synthétisabilité et diversité. Sur CrossDocked2020, DEPPA atteint Vina Score -8.5 kcal/mol.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

Building Reliable Arithmetic Multipliers Under NBTI Aging and Process Variations

Papier sur l'atténuation du vieillissement NBTI dans les multiplicateurs arithmétiques utilisés en IA. La technique exploite l'invariance de signe de la multiplication pour redistribuer le stress transistor via transformations en complément à 2. Intégrée aux systolic arrays, elle améliore la durée de vie avec surcoûts négligeables en surface et délai.

PapersBenchmarksSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Modelling Customer Trajectories with Reinforcement Learning for Practical Retail Insights

Cadre de modélisation basé sur l'apprentissage par renforcement (RL) pour prédire les trajectoires clients en magasin. L'approche dépasse les heuristiques TSP/PNN (écart moyen 28% vs chemins optimaux) en capturant la rationalité limitée des clients. Validation sur données réelles : prédictions RL plus alignées avec comportements observés, estimations plus précises des achats impulsifs et densités de trafic.

Reinforcement learningAgents IABusiness
SIG
72
HYP
18
arXiv cs.AI·

MR-SLAM: Immersive Spatial Supervision for Multi-Robot Mapping via Mixed Reality

MR-SLAM est un système de réalité mixte utilisant un Meta Quest 3 pour téléopérer trois robots TurtleBot3 en SLAM collaboratif. L'opérateur voit le monde réel en passthrough avec des panneaux d'information ancrés spatialement. Trois instances SLAM Toolbox fusionnent leurs grilles d'occupation en temps réel via ROS 2, atteignant 94,7% de cohérence inter-robots et 8,83 Hz de scan.

RobotiqueMulti-agentsInfrastructure
SIG
72
HYP
25
arXiv cs.AI·

EAGT: Echocardiography Augmentation for Generalisability and Transferability

Étude comparative de 29 techniques d'augmentation de données pour la segmentation échocardiographique 2D sur U-Net. Les transformations géométriques anatomiquement plausibles (affine, shift-scale-rotate, perspective, flip horizontal) améliorent la généralisation cross-dataset, tandis que les augmentations d'intensité agressives la dégradent. Les combinaisons par paires surpassent les augmentations individuelles.

VisionBenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba est un modèle basé sur Mamba pour prédire des séries temporelles cliniques irrégulières. Il estime la fiabilité des observations selon leur absence et le temps écoulé, intègre des informations multi-résolution via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, il améliore l'AUPRC de 7,51%, 7,80% et 10,15% respectivement.

BenchmarksPapersRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

SafeLens: Deliberate and Efficient Video Guardrails with Fast-and-Slow Screening

SafeLens propose une architecture de modération vidéo à deux niveaux (fast-and-slow) pour réduire les coûts d'inférence. Le framework filtre le dataset SafeWatch à 2,4% via influence-guided filtering et ajoute des traces Chain-of-Thought. Il surpasse SafeWatch-8B, OmniGuard-7B, GPT-5.4 et Gemini-3.1-pro sur des benchmarks vidéo réels et générés par IA.

VisionSécurité IARaisonnement
SIG
72
HYP
25
arXiv cs.AI·

PEIRA: Learning Predictive Encoders through Inter-View Regressor Alignment

PEIRA est une méthode d'apprentissage auto-supervisé non-contrastif qui analyse la dynamique de JEPA via un régresseur linéaire régularisé. Elle minimise une fonction objective explicite basée sur la trace du régresseur optimal, garantissant des équilibres stables non-effondrés alignés avec les sous-espaces de corrélation canonique. Résultats compétitifs sur ImageNet-1K et CIFAR-10.

PapersBenchmarksEmbeddings
SIG
72
HYP
15
arXiv cs.AI·

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Fre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.

VisionGénération de vidéosÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Multi-task learning on partially labeled datasets via invariant/equivariant semi-supervised learning

Étude de l'apprentissage semi-supervisé invariant et équivariant (FixMatch, Dense FixMatch) pour l'entraînement multi-tâches sur données partiellement annotées. Tests sur Cityscapes et BDD100K pour détection d'objets et segmentation sémantique. Les approches équivariantes surpassent les baselines supervisées, particulièrement avec peu d'échantillons étiquetés par tâche.

VisionPapers
SIG
72
HYP
15
arXiv cs.AI·

StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs

StrLoRA introduit un cadre de tuning visuel continu en streaming pour MLLMs. Contrairement aux méthodes existantes limitées à des tâches prédéfinies, StrCVIT traite des flux de données avec tâches dynamiques et entrelacées. StrLoRA utilise un routage d'experts à deux étapes avec sélection consciente des tâches et pondération token-wise, stabilisé par régularisation.

Multi-agentsFine-tuningVision
SIG
72
HYP
28
arXiv cs.AI·

Estimating Item Difficulty with Large Language Models as Experts

Étude évaluant trois LLMs off-the-shelf pour estimer la difficulté d'items pédagogiques sans données de réponse. Sur 6 domaines de mathématiques primaires, les corrélations de Spearman montrent alignement modéré à fort avec les difficultés empiriques. Les comparaisons par paires surpassent les jugements absolus; l'ajout de probabilités de tokens et d'exemples few-shot améliore les résultats.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Bayesian-Monte Carlo Schedule Updating for Construction Digital Twins: A Probabilistic Framework for Dynamic Project Forecasting

Framework probabiliste Bayesian-Monte Carlo pour la mise à jour dynamique des calendriers de projets de construction. Modélise les durées d'activité avec distributions lognormales, les met à jour via inférence bayésienne, et propage l'incertitude par simulation Monte Carlo. Démontre une meilleure précision que les méthodes CPM déterministes sur les benchmarks PSPLIB.

RaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

UniAlign: A Model-Agnostic Framework for Robust Network Traffic Classification under Distribution Shifts

UniAlign est un framework agnostique aux modèles pour améliorer la robustesse de la classification du trafic réseau face aux changements de distribution. Il combine l'alignement de domaine et l'ensemble de modèles stables, améliorant la précision de 2,51% et le F1 de 2,71% sur trois datasets publics, avec 12,4–53,9% du coût d'entraînement des baselines.

BenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

UVTran: Accurate Hole-Filling Parameterization with Transformers

UVTran, un framework basé transformers, résout le problème du remplissage de trous N-côtés en CAO. Il prédit une surface de projection auxiliaire via un mécanisme de cross-attention biaisé vers les points de contrôle proches, voxélise les coordonnées et utilise un entraînement multi-résolution. Sur benchmark, il améliore le taux de satisfaction de tolérance de 12% vs baselines industrielles et académiques.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

Framework pour la génération active de graphes de scènes 3D à partir de caméras RGB uniquement, sans capteurs de profondeur. Unifie perception et planification autour d'une représentation structurée. Sur Replica, atteint la parité F1 avec les baselines utilisant la profondeur ground-truth. La sélection de points de vue sémantique détecte 2× plus d'objets qu'une baseline géométrique.

VisionRobotiqueAgents IA
SIG
72
HYP
25
arXiv cs.AI·

Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency

SAGE, un framework d'auto-évolution, améliore le raisonnement spatial des VLMs en appliquant une cohérence logique via des opérations géométriques et linguistiques. Intégré comme étape de post-training GRPO légère, il corrige les incohérences sous transformations prédictibles et montre des gains sur benchmarks vidéo et spatial.

VisionRaisonnementReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

Article théorique proposant des optimiseurs respectant les symétries des architectures neuronales modernes. Introduit des règles de mise à jour équivariantes pour embeddings, têtes LM, MLPs SwiGLU et routeurs MoE. Validation sur modèles denses et sparse MoE (Qwen3, Gemma 3, OLMoE, gpt-oss) montrant amélioration de la perte de validation vs AdamW.

PapersReinforcement learningBenchmarks
SIG
72
HYP
15