Page 78 sur 149

ToutHaut signalRécent
5940 articles
arXiv cs.AI·

Visual Sculpting: Visually-Aligned Planning Representations for Long-Horizon Robot Clay Sculpting

Méthode de planification robotique pour la sculpture sur argile basée sur une représentation alignée visuellement. Le système modélise la dynamique des matériaux déformables en capturant textures et éclairage, permettant une planification long-horizon (>100 actions) sans retraining par objectif. Testé sur trois matériaux avec différents effecteurs.

RobotiqueVisionRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Étude sur la « dérive d'alignement » : processus graduel où les sorties LLM deviennent moins contraintes par le message actuel de l'utilisateur et plus façonnées par l'historique d'interaction, tout en restant utiles. Framework mécaniste distinguant signaux A/B, boucles de rétroaction et régimes interactionnels pour contrôler cette dérive cumulative.

AlignementAgents IASécurité IA
SIG
72
HYP
18
arXiv cs.AI·

UVTran: Accurate Hole-Filling Parameterization with Transformers

UVTran, un framework basé transformers, résout le problème du remplissage de trous N-côtés en CAO. Il prédit une surface de projection auxiliaire via un mécanisme de cross-attention biaisé vers les points de contrôle proches, voxélise les coordonnées et utilise un entraînement multi-résolution. Sur benchmark, il améliore le taux de satisfaction de tolérance de 12% vs baselines industrielles et académiques.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

To MRL or not to MRL: Text Embeddings are Robust to Truncation Without Matryoshka Embeddings, Except In Heavy Truncation Scenarios

Une étude arXiv compare l'apprentissage Matryoshka (MRL) avec la troncature simple d'embeddings textuels. Les résultats montrent que sans MRL, les embeddings restent robustes jusqu'à 80% de réduction dimensionnelle. MRL n'offre un avantage que pour les troncatures très agressives (>80%), remettant en question son coût d'entraînement systématique.

EmbeddingsPapersBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State

Article proposant une évaluation basée sur les traces pour détecter quand un agent atteint ses KPI économiques mais viole les contraintes comportementales. Dans un cadre de tarification hôtelière avec état concurrent caché, les auteurs montrent que PPO seul échoue à préserver l'alignement avec le comportement de référence, tandis que le clonage comportemental et une RL avec historique préalable réussissent mieux.

Reinforcement learningÉvaluationsAgents IA
SIG
72
HYP
15
arXiv cs.AI·

StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs

StrLoRA introduit un cadre de tuning visuel continu en streaming pour MLLMs. Contrairement aux méthodes existantes limitées à des tâches prédéfinies, StrCVIT traite des flux de données avec tâches dynamiques et entrelacées. StrLoRA utilise un routage d'experts à deux étapes avec sélection consciente des tâches et pondération token-wise, stabilisé par régularisation.

Multi-agentsFine-tuningVision
SIG
72
HYP
28
arXiv cs.CL·

FIM-LoRA: Task-Informative Rank Allocation for LoRA via Calibration-Time Gradient-Variance Estimation

FIM-LoRA optimise l'allocation de rang dans LoRA en utilisant 8 passes de calibration pour estimer la variance des gradients par couche. Cette approche sans paramètres supplémentaires atteint les mêmes performances que LoRA standard (88.6 vs 88.7 sur GLUE avec DeBERTa-v3-base) tout en réduisant les coûts mémoire de 256x comparé à l'estimation Fisher complète.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

UniAlign: A Model-Agnostic Framework for Robust Network Traffic Classification under Distribution Shifts

UniAlign est un framework agnostique aux modèles pour améliorer la robustesse de la classification du trafic réseau face aux changements de distribution. Il combine l'alignement de domaine et l'ensemble de modèles stables, améliorant la précision de 2,51% et le F1 de 2,71% sur trois datasets publics, avec 12,4–53,9% du coût d'entraînement des baselines.

BenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

Estimating Item Difficulty with Large Language Models as Experts

Étude évaluant trois LLMs off-the-shelf pour estimer la difficulté d'items pédagogiques sans données de réponse. Sur 6 domaines de mathématiques primaires, les corrélations de Spearman montrent alignement modéré à fort avec les difficultés empiriques. Les comparaisons par paires surpassent les jugements absolus; l'ajout de probabilités de tokens et d'exemples few-shot améliore les résultats.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

AMR-SD propose une auto-distillation asymétrique avec réflexion méta pour améliorer l'attribution de crédit au niveau des tokens dans l'entraînement par renforcement des LLM. La méthode compresse les signaux de diagnostic en indices socratiques auto-générés et utilise un gain d'information causale avec seuil ReLU asymétrique pour moduler les avantages par token, évitant l'effondrement en fin d'entraînement.

Reinforcement learningRaisonnementAlignement
SIG
72
HYP
18
arXiv cs.AI·

Bayesian-Monte Carlo Schedule Updating for Construction Digital Twins: A Probabilistic Framework for Dynamic Project Forecasting

Framework probabiliste Bayesian-Monte Carlo pour la mise à jour dynamique des calendriers de projets de construction. Modélise les durées d'activité avec distributions lognormales, les met à jour via inférence bayésienne, et propage l'incertitude par simulation Monte Carlo. Démontre une meilleure précision que les méthodes CPM déterministes sur les benchmarks PSPLIB.

RaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Fre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.

VisionGénération de vidéosÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Article arXiv sur les limites spatiales des MLLMs en environnements multi-agents. Les modèles souffrent d'une « illusion cartésienne » : ils manquent de compréhension 3D topologique ancrée. Les auteurs proposent un module « Epistemic Sensory Bottleneck » avec une chaîne de pensée basée sur des ancres pour améliorer l'inférence spatiale de second ordre (Theory of Mind). Baseline zéro-shot : 42% de précision.

VisionMulti-agentsRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba est un modèle basé sur Mamba pour prédire des séries temporelles cliniques irrégulières. Il estime la fiabilité des observations selon leur absence et le temps écoulé, intègre des informations multi-résolution via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, il améliore l'AUPRC de 7,51%, 7,80% et 10,15% respectivement.

BenchmarksPapersRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation

PPR-GDE, une méthode RL pour la génération ouverte, utilise des récompenses de préférence par paires et une diversité basée sur les groupes pour éviter l'effondrement de la diversité. Sans récompenses scalaires, elle préserve les évaluations subjectives et encourage la dispersion sémantique dans les groupes de réponses.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

Multi-task learning on partially labeled datasets via invariant/equivariant semi-supervised learning

Étude de l'apprentissage semi-supervisé invariant et équivariant (FixMatch, Dense FixMatch) pour l'entraînement multi-tâches sur données partiellement annotées. Tests sur Cityscapes et BDD100K pour détection d'objets et segmentation sémantique. Les approches équivariantes surpassent les baselines supervisées, particulièrement avec peu d'échantillons étiquetés par tâche.

VisionPapers
SIG
72
HYP
15
arXiv cs.AI·

POST: Prior-Observation Adversarial Learning of Spatio-Temporal Associations for Multivariate Time Series Anomaly Detection

POST propose un cadre d'apprentissage adversarial pour la détection d'anomalies dans les séries temporelles multivariées. Le modèle combine des réseaux de neurones graphiques avec une optimisation minimax sur les matrices d'adjacence pour résoudre la sur-généralisation spatiale. Évaluation sur benchmark public et synthétique avec localisation d'anomalies au niveau des canaux.

BenchmarksPapersRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

ConsumerSimBench, un benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro couvre seulement 47,8% des critères, révélant un écart majeur entre performance technique et intuition consommateur. Un pipeline multi-agent améliore MiMo-V2.5-Pro de 32,9% à 37,6%.

BenchmarksÉvaluationsMulti-agents
SIG
72
HYP
25
arXiv cs.CL·

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un cadre d'évaluation des systèmes IA génératifs qui combine jugement humain et LLM. Il utilise des rubriques multi-dimensionnelles conçues par experts et calibre les évaluateurs LLM sur un petit ensemble d'annotations de haute qualité. Expériences sur texte et images montrent meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles.

ÉvaluationsLlamaVision
SIG
72
HYP
28
arXiv cs.CL·

SafeLens: Deliberate and Efficient Video Guardrails with Fast-and-Slow Screening

SafeLens propose une architecture de modération vidéo à deux niveaux (fast-and-slow) pour réduire les coûts d'inférence. Le framework filtre le dataset SafeWatch à 2,4% via influence-guided filtering et ajoute des traces Chain-of-Thought. Il surpasse SafeWatch-8B, OmniGuard-7B, GPT-5.4 et Gemini-3.1-pro sur des benchmarks vidéo réels et générés par IA.

VisionSécurité IARaisonnement
SIG
72
HYP
25
arXiv cs.AI·

EAGT: Echocardiography Augmentation for Generalisability and Transferability

Étude comparative de 29 techniques d'augmentation de données pour la segmentation échocardiographique 2D sur U-Net. Les transformations géométriques anatomiquement plausibles (affine, shift-scale-rotate, perspective, flip horizontal) améliorent la généralisation cross-dataset, tandis que les augmentations d'intensité agressives la dégradent. Les combinaisons par paires surpassent les augmentations individuelles.

VisionBenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

PEIRA: Learning Predictive Encoders through Inter-View Regressor Alignment

PEIRA est une méthode d'apprentissage auto-supervisé non-contrastif qui analyse la dynamique de JEPA via un régresseur linéaire régularisé. Elle minimise une fonction objective explicite basée sur la trace du régresseur optimal, garantissant des équilibres stables non-effondrés alignés avec les sous-espaces de corrélation canonique. Résultats compétitifs sur ImageNet-1K et CIFAR-10.

PapersBenchmarksEmbeddings
SIG
72
HYP
15
arXiv cs.AI·

New Insight of Variance reduce in Zero-Order Hard-Thresholding: Mitigating Gradient Error and Expansivity Contradictions

Nouvel algorithme de hard-thresholding d'ordre zéro avec réduction de variance pour les problèmes d'optimisation ℓ0. Résout la limitation du SZOHT sur le nombre de directions aléatoires en atténuant le conflit entre déviation des gradients ZO et expansivité de l'opérateur. Convergence améliorée validée sur régression ridge et attaques adversariales.

Reinforcement learning
SIG
72
HYP
15
arXiv cs.AI·

MR-SLAM: Immersive Spatial Supervision for Multi-Robot Mapping via Mixed Reality

MR-SLAM est un système de réalité mixte utilisant un Meta Quest 3 pour téléopérer trois robots TurtleBot3 en SLAM collaboratif. L'opérateur voit le monde réel en passthrough avec des panneaux d'information ancrés spatialement. Trois instances SLAM Toolbox fusionnent leurs grilles d'occupation en temps réel via ROS 2, atteignant 94,7% de cohérence inter-robots et 8,83 Hz de scan.

RobotiqueMulti-agentsInfrastructure
SIG
72
HYP
25