Page 30 sur 139

ToutHaut signalRécent
5536 articles
arXiv cs.CL·

Compress the Context, Keep the Commitments: A Formal Framework for Verifiable LLM Context Compression

Context Codec propose un cadre formel pour compresser les contextes LLM en préservant les engagements sémantiques (objectifs, contraintes, décisions, preuves). Le framework introduit des métriques (Critical Atom Recall, Commitment Density) et CCL, un langage de rendu compact ASCII-first, pour rendre la compression vérifiable et auditable.

Prompt engineeringRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

SWIM aligne les représentations vision-langage pour la compréhension fine d'objets vidéo via prompts textuels seuls. Utilise la supervision de masques en entraînement pour guider l'attention cross-modale. Construit NL-Refer, dataset enrichi avec expressions référentes précises. Surpasse les méthodes basées prompts visuels sur les benchmarks.

VisionRAGEmbeddings
SIG
75
HYP
25
arXiv cs.AI·

MARS: Technical Report for the CASTLE Challenge at EgoVis 2026

MARS est un système multimodal pour le défi CASTLE 2026 qui traite le raisonnement sur 4 jours d'activité, 15 perspectives synchronisées, transcriptions et modalités auxiliaires (photos, vidéos, eye-tracking, thermographie, fréquence cardiaque). L'approche utilise DeepSeek pour les résumés vidéo et un agent GPT-5.4 pour sélectionner les sources d'evidence. Le système a obtenu la 2e place au classement final.

Agents IAMulti-agentsVision
SIG
75
HYP
20
arXiv cs.AI·

The threat of analytic flexibility in using large language models to simulate human data

Étude arXiv montrant que les choix analytiques (sélection de modèle, paramètres, format de prompt, données démographiques) affectent significativement la fidélité des « silicon samples » (données synthétiques générées par LLM). Sur 252 configurations testées, les corrélations avec les données humaines varient de r=.23 à r=.84, révélant un risque majeur de flexibilité analytique.

LlamaÉvaluationsSécurité IA
SIG
75
HYP
25
arXiv cs.AI·

EmoMind: Decoding Affective Captions from Human Brain fMRI

EmoMind décode des descriptions affectives directes depuis les signaux fMRI du cerveau. Le système récupère d'abord une description neutre de la scène visuelle, puis la réécrit en utilisant un vecteur émotionnel continu de 34 dimensions extrait du même enregistrement fMRI. Évalué sur deux datasets indépendants, EmoMind surpasse GPT-4 avec étiquettes discrètes sur tous les axes de validation.

VisionRaisonnementÉvaluations
SIG
75
HYP
25
arXiv cs.CL·

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

TABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.

Fine-tuningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

AMARIS introduit un système de mémoire persistante pour améliorer les rubriques d'évaluation dans l'entraînement par RL des LLMs. Le système accumule les diagnostics d'évaluation au fil du temps, utilise la récupération statique et dynamique pour contextualiser les modifications de rubriques, et ajoute ~5% de surcharge temporelle. Les expériences montrent des gains constants sur les domaines fermés et ouverts.

Reinforcement learningFine-tuningÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training

TierCheck est un système de sauvegarde en trois niveaux pour l'entraînement de LLM. Il maintient des points de contrôle différentiels légers en mémoire locale/pair pour récupération rapide, migre asynchronement les points de base vers le stockage distant, et garantit la cohérence globale sans ralentir l'entraînement. Sur modèles jusqu'à 40B paramètres, il réduit le temps de sauvegarde à moins de 10s.

InfrastructureBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches sur OmniGibson. Les agents doivent combiner perception, locomotion et manipulation pour accumuler activement des preuves. Les expériences montrent que l'exploration active surpasse les approches passives, mais les défaillances proviennent surtout de mauvais choix d'action plutôt que de perception faible.

VisionRobotiqueBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Babel est une méthode de jailbreak black-box qui exploite une vulnérabilité dans l'alignement de sécurité des LLM : la sécurité repose sur peu de têtes d'attention éparses, laissant l'espace représentationnel faiblement surveillé. Via obfuscation optimisée et raffinement itératif, Babel atteint 82,67% de succès sur GPT-4o et 78,33% sur Claude-3-5-haiku en ~40 requêtes.

Sécurité IAAlignementGPT
SIG
75
HYP
35
arXiv cs.AI·

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

HINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces segments. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Agents IAReinforcement learningRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA contre 341 idées humaines sur six tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (large dispersion sémantique, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agentsRaisonnementBenchmarks
SIG
75
HYP
45
arXiv cs.AI·

StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting

StyleText est un dataset de 28,518 triplets image-masque-prompt pour l'inpainting de texte en scène avec préservation de style. Pipeline automatisé combinant LLM, Flux avec injection KV-cache, OCR, extraction de masques polygonaux et augmentation FluxFill. Baseline FluxFill+LoRA améliore significativement la précision OCR tout en maintenant la cohérence stylistique.

BenchmarksGénération d'imagesVision
SIG
75
HYP
25
arXiv cs.AI·

Rover: Context-aware Conflict Resolution with LLM

Rover est un système de résolution de conflits de fusion de code combinant analyse de programme et LLM. Il introduit Multi-layer Code Property Graph (MtCPG) pour capturer les dépendances inter-fichiers et utilise des algorithmes de connectivité graphique pour créer des contextes significatifs. Évaluation : Rover surpasse les LLM seuls, MergeGen et WizardMerge aux niveaux caractère, lexical et sémantique.

Génération de codeRaisonnementOutils
SIG
75
HYP
25
arXiv cs.CL·

Code as Agent Harness

Nouvelle perspective sur les systèmes d'agents IA : le code comme infrastructure centrale. Cet article de recherche organise un cadre unifié autour de trois couches — interface de harness (code connectant raisonnement et action), mécanismes (planification, mémoire, feedback), et passage à l'échelle multi-agents. Applications : assistants de code, automatisation GUI/OS, agents incarnés, découverte scientifique.

Agents IAMulti-agentsGénération de code
SIG
75
HYP
25
arXiv cs.AI·

SLASH the Sink: Sharpening Structural Attention Inside LLMs

Les LLMs reconstruisent spontanément la topologie des graphes via des patterns d'attention « sawtooth », mais cette compréhension structurelle est diluée par l'attention sink. SLASH, une solution sans entraînement, réamplifie cette compréhension via une redistribution d'attention plug-and-play, montrant des gains significatifs sur tâches graphiques et prédiction moléculaire.

RaisonnementPapersBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Beyond Accuracy: Robustness, Interpretability and Expressiveness of EEG Foundation Models

Étude comparative de 6 modèles fondamentaux EEG sur 8 datasets, au-delà de la précision brute. Analyse de robustesse (bruit, dropout de canaux), interprétabilité via Attention-Aware Layer-Wise Relevance Propagation, et expressivité par probing. Résultats : pas de modèle dominant tous les modes de défaillance ; les modèles se concentrent sur les régions cérébrales pertinentes mais décodent mal le contenu corrompu.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

UniER: A Unified Benchmark for Item-level and Path-level Exercise Recommendation

UniER est un benchmark unifié pour la recommandation d'exercices pédagogiques, comparant deux paradigmes : ILER (recommandation au niveau item) et PLER (recommandation de parcours d'apprentissage). Le framework introduit la métrique Weighted Cognitive Gain (WCG) et évalue 18 méthodes sur 9 datasets. Les résultats montrent la supériorité systématique de PLER et les limites d'ILER en contexte de rareté de données.

BenchmarksÉvaluationsPapers
SIG
75
HYP
15
arXiv cs.CL·

Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models

Guided Topology Diffusion (GTD) utilise des modèles de diffusion de graphes pour générer dynamiquement les topologies de communication optimales dans les systèmes multi-agents LLM. Le framework itératif, guidé par un modèle proxy prédisant récompenses multi-objectifs (précision, utilité, coût), adapte les topologies aux tâches sans optimisation par gradient, surpassant les approches statiques.

Multi-agentsAgents IABenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Training Infinitely Deep and Wide Transformers

Article théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.CL·

A Data-Efficient Path to Multilingual LLMs: Language Expansion via Post-training PARAM$\Delta$ Integration into Upcycled MoE

Méthode pour étendre les LLM à de nouvelles langues sans phase d'alignement coûteuse. Convertit un modèle dense en architecture Mixture-of-Experts avec experts dédiés par langue, puis transfère les capacités d'alignement via fusion de deltas post-training. Améliore les performances sur les nouvelles langues tout en préservant les capacités originales.

Fine-tuning
SIG
75
HYP
25