mai 2026

3149 articles

DISA: Offline Importance Sampling for Distribution-Matching LLM-RL

DISA est une méthode d'RL hors-ligne pour les LLM qui découple l'estimation de la fonction de partition (via importance sampling) de l'optimisation de la politique. Sur 9 benchmarks (math et code), elle égale ou surpasse FlowRL, dépasse GRPO/GSPO, et conserve plus de diversité stratégique que les baselines de maximisation de récompense.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·19 mai

FishBack: Pullback Fisher Geometry for Optimal Activation Steering in Transformers

FishBack propose une méthode d'activation steering basée sur la géométrie de Fisher pour les transformers. Les auteurs montrent que l'espace d'activation n'est pas euclidien (déviation >97% sur GPT-2) et dérivent une équation de steering optimale en forme fermée. La méthode surpasse CAA, ActAdd et ITI de 1.3×–2.5× sur la réduction KL hors-cible.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

ChemVA, un framework pour améliorer la compréhension des diagrammes de réactions chimiques par les LLMs. Combine détection visuelle multi-granularité des groupes fonctionnels et alignement sémantique pour activer le raisonnement chimique latent. Atteint 92% de précision de reconnaissance structurelle sur OCRD-Bench et +20 points de performance sur 9 LLMs.

Vision Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Responsible Agentic AI Requires Explicit Provenance

Un article arXiv propose que l'IA agentive responsable nécessite une provenance explicite et traçable tout au long du cycle de vie. Les auteurs formalisent cette provenance via une fonction d'attribution causale et un tenseur de responsabilité, montrant qu'elle est estimable et interventionnable avant accumulation de dommages irréversibles.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·19 mai

HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation

HEED propose une méthode d'alignement résiduel pondéré par densité pour distiller des modèles vision-langage (ex. Qwen3-VL-8B) en architectures hybrides Mamba-2/attention. La technique cible les patches haute-densité (texte, détails fins) qui subissent 3.6× plus de dérive résiduelle. Résultats : +8.7 points OCRBench v2, +5.13 points en moyenne, 4.12× throughput, 68% économie mémoire.

Vision Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Scale Determines Whether Language Models Organize Representation Geometry for Prediction

Étude sur l'organisation géométrique des représentations dans les modèles de langage selon leur échelle. Subspace PGA mesure l'alignement de la géométrie intermédiaire avec la matrice d'unembedding. Modèles petits (≤1024) perdent progressivement cette organisation aux couches tardives, tandis que grands modèles (≥2048) la préservent. L'échelle détermine comment la géométrie s'organise pour la prédiction.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

D²Evo est un framework RL pour améliorer le raisonnement des LLM. Il résout la rareté des samples de difficulté moyenne en minant des anchors adaptés à la capacité du modèle et en entraînant un Questioner à générer des questions diversifiées. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K samples réels.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Attractor-Vascular Coupling Theory: Formal Grounding and Empirical Validation for AAMI-Standard Cuffless Blood Pressure Estimation from Smartphone Photoplethysmography

Théorie du couplage attracteur-vasculaire (AVCT) : cadre mathématique montrant que la géométrie de l'attracteur cardiaque encode l'information de pression artérielle. Modèle LightGBM calibré sur PPG smartphone atteint MAE 2.05 mmHg (SBP) et 1.67 mmHg (DBP) en validation LOSO-CV stricte (46 sujets, 29,684 fenêtres), satisfaisant critères AAMI/IEEE SP10. PPG seul égale ECG+PPG à 0.05 mmHg près.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

The IsalProgram Programming Language

IsalProgram est un langage assembleur régulier où tout string fini est un programme valide. Exécuté sur une machine virtuelle avec liste doublement chaînée circulaire et trois pointeurs de données, il élimine adresses mémoire et noms de variables. Proposé comme cible pour la synthèse neuronale de programmes.

Génération de code Papers

SIG

HYP

arXiv cs.CL·19 mai

DriveSafe: A Framework for Risk Detection and Safety Suggestions in Driving Scenarios

DriveSafe est un framework pour l'évaluation des risques dans les scénarios de conduite autonome. Il génère des descriptions spatiales enrichies (mouvement, profondeur) puis fine-tune un adaptateur léger pour identifier les objets dangereux et proposer des actions sécuritaires. Atteint SOTA sur le benchmark DRAMA.

Vision Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Weather-Robust Cross-View Geo-Localization via Prototype-Based Semantic Part Discovery

SkyPart, une tête légère pour vision transformers, améliore la géolocalisation croisée drone-satellite en séparant explicitement la disposition et la texture via prototypes apprenables. Avec 26.95M paramètres, elle atteint l'état de l'art sur SUES-200, University-1652 et DenseUAV, avec robustesse accrue sous corruptions météorologiques.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Les pipelines RL asynchrones pour agents LLM perdent les anciens logits historiques nécessaires à la correction off-policy PPO, entrelançant correction de discordance et correction de staleness. L'article propose trois stratégies d'acquisition (snapshot, modèle dédié, interruption) et une méthode PPO-EWMA approximée pour préserver la sémantique de correction découplée.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

Orthrus combine un LLM autorégressif et un modèle de diffusion via une architecture duale unifiée. Le framework ajoute un module léger à un Transformer gelé pour générer des tokens en parallèle tout en conservant la fidélité exacte du modèle autorégressif. Speedup jusqu'à 7.8x avec surcharge mémoire O(1).

Raisonnement Génération de code Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy

Les modèles de langage en pipelines multi-agents basculent vers des réponses incorrectes sous désaccord simulé (yield). Contrairement à l'hypothèse courante, ce n'est pas l'RLHF qui en est responsable : les modèles de base non-alignés montrent le même pattern. L'activation patching localise la corruption dans une fenêtre mid-layer étroite. Un seul dissenseur argumentant correctement réduit le yield de 54-73 points.

Multi-agents Alignement Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Embracing Biased Transition Matrices for Complementary-Label Learning with Many Classes

Les méthodes d'apprentissage par étiquettes complémentaires (CLL) restent limitées aux classifications à 10 classes. Cet article propose BICL, un cadre qui utilise intentionnellement des matrices de transition biaisées (non-uniformes) pour restreindre les étiquettes complémentaires. Sur CIFAR-100 et TinyImageNet-200, BICL améliore la précision de plus de 7× par rapport aux méthodes traditionnelles.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

No Free Swap: Protocol-Dependent Layer Redundancy in Transformers

Étude montrant que deux protocoles d'évaluation de redondance dans les transformers (replacement et interchange) donnent des résultats divergents pour identifier les couches à élaguer. Sur Pythia, Qwen3-8B et Llama-3.1-8B, l'écart entre les protocoles change drastiquement les couches jugées sûres à supprimer, même avec le même évaluateur KL.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Outil computationnel pour classifier les verbes de manière et de résultat à grande échelle. Utilise des prompts linguistiques avec LLM pour générer des annotations sur MASC et InterCorp (436 classes VerbNet). Classifier RoBERTa atteint 89,6% de précision sur trois datasets gold-standard. Applicable à la recherche développementale sur la sémantique verbale.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·19 mai

Language Acquisition Device in Large Language Models

Des chercheurs proposent LAD-inspired PPT, un pré-préentraînement sur MP-STRUCT, un langage formel encodant composition hiérarchique et déplacement à longue distance. Après 500 étapes, cette approche égale les baselines formels en efficacité tokens tout en conférant aux LLMs une résistance aux langages structurellement implausibles, similaire aux humains.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·19 mai

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

AgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur des configurations inédites. Les agents testés (Cursor Agent, Claude Code, Codex) atteignent des speedups jusqu'à 6.89x, mais montrent des faiblesses en généralisation pour PyTorch-to-HIP.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Constrained Code Generation with Discrete Diffusion

Les modèles de diffusion discrète permettent de générer du code par raffinement itératif. CDC (Constrained Diffusion for Code) intègre des contraintes directement dans le processus de débruitage sans entraînement supplémentaire, combinant optimisation mathématique et analyse de programme pour améliorer la correction fonctionnelle, la sécurité et la syntaxe.

Génération de code Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

RTI-Bench: A Structured Dataset for Indian Right-to-Information Decision Analysis

RTI-Bench est un dataset structuré de 1 516 décisions de la Commission indienne d'information (CIC) avec étiquettes de résultats, citations d'exemptions et composants de raisonnement IRAC. Mistral 7B atteint 57,3% de précision en prédiction de résultats (baseline 14,3%). Premier dataset public pour l'analyse des décisions RTI indiennes.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

MixSD est une méthode de fine-tuning sans modèle externe qui injecte des connaissances en mélangeant dynamiquement les tokens du modèle lui-même : une branche « expert » observant le fait à injecter, une branche « naïve » reflétant les priors originaux. Sur benchmarks de QA et d'édition de connaissances, MixSD retient jusqu'à 100% des capacités du modèle de base contre 1% pour SFT standard.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

JSPG: Dynamic Dictionary Filtering via Joint Semantic-Pinyin-Glyph Retrieval for Chinese Contextual ASR

JSPG propose un cadre de filtrage dynamique pour l'ASR contextuelle en chinois combinant features sémantiques, pinyin et glyphes. L'approche utilise un algorithme Smith-Waterman étendu pour scorer les séquences d'hypothèses N-best. Tests sur Aishell-1 et RWCS-NER montrent amélioration significative de la reconnaissance de mots-clés.

Voix Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models

Les grands modèles de raisonnement (LRM) génèrent des traces alignées avec les temps de réaction humains, mais cet alignement persiste indépendamment du budget de raisonnement en inférence. Étude sur GPT-OSS-20B et GPT-OSS-120B : l'allocation de tokens suit les patterns de difficulté humains et reste invariante across effort levels, suggérant que l'alignement cognitif est figé au training time.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

Closing the Gap at CRAC 2026: Two-Stage Adaptation for LLM-Based Multilingual Coreference Resolution

Système de résolution de coréférence multilingue basé sur Gemma-3-27b avec adaptation deux étapes (adaptateurs multilingues puis spécifiques au dataset). CoNLL F1 de 74.32 sur test CRAC 2026, 1er du track LLM. Représentation des mentions par headword en format XML avec réindexage local.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

Skills on the Fly: Test-Time Adaptive Skill Synthesis for LLM Agents

SkillTTA synthétise des compétences textuelles spécifiques à la tâche en récupérant des trajectoires d'entraînement pertinentes, sans mettre à jour les paramètres du modèle. Évalué sur SpreadsheetBench, ALFWorld et BigCodeBench : SpreadsheetBench passe de 0.397 à 0.505 en Pass@1, BigCodeBench de 0.517 à 0.651.

Agents IA Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts

PARALLAX révèle que 4 des 6 benchmarks majeurs de détection d'hallucinations contiennent la réponse correcte dans le prompt, permettant à une baseline naïve (TxTemb) d'atteindre une détection quasi-parfaite sans accès aux états internes du modèle. Évaluation de 22 méthodes sur 12 modèles open-source : la plupart échouent en conditions contrôlées, sauf SAPLMA et DRIFT (probes supervisées sur états cachés supérieurs).

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media

PluRule est un benchmark multimodal multilingue pour la modération de communautés pluralistes sur les réseaux sociaux. Il couvre 13 371 violations de règles dans 1 989 communautés Reddit (9 langues, 2 885 règles). Les modèles vision-langage de pointe, y compris GPT-4.5 avec raisonnement avancé, ne surpassent que marginalement une baseline triviale.

Benchmarks Vision Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning

SEMA-RAG est un framework multi-agent pour la génération augmentée par récupération (RAG) appliquée au raisonnement médical. Il décompose le processus en trois agents spécialisés : interprétation clinique, exploration itérative de documents, et adjudication des preuves. Testé sur 5 benchmarks et 5 backbones LLM, il améliore les baselines de +6,46 points de précision en moyenne.

Multi-agents RAG Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Multilingual and Multimodal LLMs in the Wild: Building for Low-Resource Languages

Tutorial sur les LLMs multimodaux multilingues pour langues peu dotées. Couvre modèles récents (PALO, Maya), pipelines speech-text-vision, création de données à faible coût, alignement tri-modal par adaptateurs, et évaluation culturelle au-delà de l'anglais.

Vision Voix

SIG

HYP

arXiv cs.CL·19 mai

Thinking with Patterns: Breaking the Perceptual Bottleneck in Visual Planning via Pattern Induction

Les VLMs peinent à planifier à partir d'entrées visuelles complexes. Cet article propose Pattern Induction, une stratégie d'apprentissage inductif en ligne qui découvre et optimise des motifs visuels réutilisables comme experts composites. Pattern Inference permet aux VLMs de reconnaître ces motifs et d'inférer directement les structures du modèle du monde. Évalué sur FrozenLake, Crafter et CubeBench.

Vision Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

Artificial Intolerance: Stigmatizing Language in Clinical Documentation Skews Large Language Model Decision-Making

Étude arXiv montrant que 9 LLMs frontier héritent des biais de langage stigmatisant présents dans les notes cliniques. Les modèles réduisent agressivité thérapeutique face à une seule phrase stigmatisante. Chain-of-Thought et auto-débiaisage échouent à mitiger l'effet.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

FIM-LoRA: Task-Informative Rank Allocation for LoRA via Calibration-Time Gradient-Variance Estimation

FIM-LoRA optimise l'allocation de rang dans LoRA en utilisant 8 passes de calibration pour estimer la variance des gradients par couche. Cette approche sans paramètres supplémentaires atteint les mêmes performances que LoRA standard (88.6 vs 88.7 sur GLUE avec DeBERTa-v3-base) tout en réduisant les coûts mémoire de 256x comparé à l'estimation Fisher complète.

Fine-tuning Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injecter des brouillons mathématiquement faux d'un petit modèle (Qwen2.5-Math-1.5B) mal appariés au problème courant dans le contexte GRPO d'un modèle plus fort (Mathstral-7B) surpasse le GRPO standard. Sur MATH-500, le variant mal apparié atteint 71,98% (meilleur résultat publié pour ce modèle), +1,62pp vs variant bien apparié, sans SFT ni modèles de récompense.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Taming "Zombie'' Agents: A Markov State-Aware Framework for Resilient Multi-Agent Evolution

AgentRevive propose un cadre Markov pour l'évolution résiliente de systèmes multi-agents LLM. Au lieu de supprimer agressivement les agents défaillants, la méthode utilise des transitions d'état souples (Actif/Standby/Terminé) avec un estimateur de risque d'hallucination. Résultats : surpasse les baselines sur raisonnement général, tâches spécialisées et défis d'hallucination, réduisant la consommation de tokens.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

AMATA: Adaptive Multi-Agent Trajectory Alignment for Knowledge-Intensive Question Answering

AMATA est un framework multi-agent adaptatif pour le question-answering intensif en connaissances. Six agents spécialisés collaborent via des actions structurées pour améliorer la cohérence factuelle et réduire les hallucinations. Le système formalise la collaboration comme un problème d'alignement de trajectoires avec apprentissage des préférences intra et inter-agents.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization

Méthode d'adaptation de vocabulaire parameter-efficient pour améliorer la tokenization des LLM sur domaines spécialisés (légal, médical). Testée sur Llama-3.1-8B et Qwen2.5-7B : réduit le temps d'entraînement de 35-55% vs continual pretraining, diminue les paramètres de 37% vs expansion-only, améliore la qualité des résumés via tokens domain-spécifiques.

Fine-tuning Llama Qwen

SIG

HYP

arXiv cs.CL·19 mai

MiniGPT: Rebuilding GPT from First Principles

MiniGPT est une implémentation compacte de GPT en PyTorch, reconstruite from scratch dans un notebook unique. Le modèle de 10.77M paramètres atteint une validation loss de 1.4780 sur Tiny Shakespeare avec tokenization au niveau caractère et génère du texte avec structure dialogale reconnaissable.

GPT Génération de code Papers

SIG

HYP

arXiv cs.CL·19 mai

BELIEF: Structured Evidence Modeling and Uncertainty-Aware Fusion for Biomedical Question Answering

BELIEF combine modélisation structurée des preuves et fusion consciente de l'incertitude pour la réponse à questions biomédicales. Le framework convertit documents récupérés en objets d'evidence (attributs cliniques, qualité source, pertinence, force de support) et fusionne deux chemins : symbolique (théorie Dempster-Shafer) et neural (LLM). Résultats SOTA sur PubMedQA, MedQA, MedMCQA avec 5 backbones LLM.

RAG Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

The Unlearnability Phenomenon in RLVR for Language Models

Étude révélant un phénomène d'« inapprenabilité » dans l'apprentissage par renforcement avec récompense vérifiable (RLVR) pour LLM. Certains exemples difficiles restent non-apprenables même avec des trajectoires correctes. L'analyse montre des défauts de représentation fondamentaux : faible similarité de gradient et patterns de raisonnement non-généralisables. L'augmentation de données ne résout pas le problème.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

Mixture of Experts for Low-Resource LLMs

Étude des dynamiques de routage dans deux architectures MoE (Qwen3-30B-A3B et Nemotron-3-Nano-30B-A3B) révélant un effondrement du routage en couches profondes pour les langues sous-représentées (hébreu, japonais). L'entraînement continu bilingue corrige cet déséquilibre mieux que le fine-tuning supervisé seul.

Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·19 mai

Recall Isn't Enough: Bounding Commitments in Personalized Language Systems

Article sur Contract-Bounded Evidence Activation (CBEA) et Lexicographic Commitment Validation (LCV) pour systèmes de langage personnalisés. CBEA+LCV atteint zéro défaillances à 0.49-0.60 disponibilité vs 0.003-0.092 pour baselines, avec 74-75% réduction de payload d'entrée médian.

Raisonnement RAG Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Beyond Transcripts: Iterative Peer-Editing with Audio Unlocks High-Quality Human Summaries of Conversational Speech

Étude comparative de 10 workflows d'annotation pour la résumé de parole conversationnelle. Les résumés basés sur audio sont moins informatifs que ceux basés sur transcripts, mais l'édition itérative par pairs avec audio compense cette différence. Validation de cette approche pour créer des benchmarks intégrant informations lexicales et prosodiques.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Validate Your Authority: Benchmarking LLMs on Multi-Label Precedent Treatment Classification

Benchmark de LLMs sur la classification multi-label du traitement des précédents juridiques. Dataset expert-annoté de 239 citations réelles. Gemini 2.5 Flash atteint 79,1% en classification haut-niveau, GPT-5-mini 67,7% en schéma fin-grained. Nouvelle métrique Average Severity Error pour mesurer l'impact pratique des erreurs.

Benchmarks Gemini GPT

SIG

HYP

arXiv cs.CL·19 mai

From Documents to Segments: A Contextual Reformulation for Topic Assignment

Nouvelle approche de topic modeling (SBTA) qui assigne des topics à des segments de texte plutôt qu'à des documents entiers, réduisant la contamination thématique. Les auteurs créent SemEval-STM, un dataset annoté via LLM + révision humaine, et valident l'amélioration de la qualité et interprétabilité sur plusieurs modèles.

Papers Benchmarks RAG

SIG

HYP

arXiv cs.CL·19 mai

Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning

Des chercheurs montrent que des petits modèles (Gemma 4 E4B, Qwen3-4B) fine-tunés avec QLoRA 8-bit internalisent la connaissance des outils sans nécessiter leurs schémas en prompt. Sur AssetOpsBench, les modèles fine-tunés surpassent les baselines non fine-tunés : réduction de 82,6% de la longueur d'entrée, AT-F1 de 0,65 vs 0,47, et 2,5× plus rapide pour Qwen3.

Fine-tuning Agents IA Qwen

SIG

HYP

arXiv cs.CL·19 mai

To MRL or not to MRL: Text Embeddings are Robust to Truncation Without Matryoshka Embeddings, Except In Heavy Truncation Scenarios

Une étude arXiv compare l'apprentissage Matryoshka (MRL) avec la troncature simple d'embeddings textuels. Les résultats montrent que sans MRL, les embeddings restent robustes jusqu'à 80% de réduction dimensionnelle. MRL n'offre un avantage que pour les troncatures très agressives (>80%), remettant en question son coût d'entraînement systématique.

Embeddings Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Systematic Evaluation of the Quality of Synthetic Clinical Notes Rephrased by LLMs at Million-Note Scale

Évaluation systématique de notes cliniques synthétiques générées par LLM à l'échelle du million de notes. L'étude montre que les notes synthétiques préservent les informations cliniques essentielles pour les tâches grossières mais perdent les détails fins pour le codage ICD. Le rephrasing par chunks réduit cette perte mais diminue la précision factuelle.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B. Code open-source disponible.

Reinforcement learning Benchmarks Open source

SIG

HYP

arXiv cs.CL·19 mai

A Pilot Benchmark for NL-to-FOL Translation in Planetary Exploration

Benchmark pilote pour traduire le langage naturel en logique du premier ordre (FOL) dans l'exploration planétaire. Dataset construit à partir de documentation NASA (missions 2003-2013), annoté manuellement avec représentations FOL capturant structure temporelle, rôles d'agents et dépendances opérationnelles. Vocabulaires de prédicats structurés fournis.

Raisonnement Benchmarks Robotique

SIG

HYP

arXiv cs.CL·19 mai

AutoVecCoder: Teaching LLMs to Generate Explicitly Vectorized Code

AutoVecCoder enseigne aux LLMs à générer du code vectorisé explicite via SIMD. Le framework combine VecPrompt (synthèse de données pour injecter la connaissance des intrinsics) et VecRL (apprentissage par renforcement aligné sur l'efficacité). AutoVecCoder-8B atteint l'état de l'art sur SimdBench (SSE/AVX) et surpasse parfois les optimisations -O3.

Génération de code Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agents Agents IA Prompt engineering

SIG

HYP

arXiv cs.CL·19 mai

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Étude sur la « dérive d'alignement » : processus graduel où les sorties LLM deviennent moins contraintes par le message actuel de l'utilisateur et plus façonnées par l'historique d'interaction, tout en restant utiles. Framework mécaniste distinguant signaux A/B, boucles de rétroaction et régimes interactionnels pour contrôler cette dérive cumulative.

Alignement Agents IA Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

MINE (Mechanistically Interpretable Neural Encoding) applique les outils d'interprétabilité mécanique aux réseaux de neurones pour identifier les caractéristiques visuelles qui activent chaque voxel du cortex visuel humain. Validation par génération d'images et édition contrefactuelle : insérer/retirer les features prédites modifie l'activation neuronale comme prévu.

Vision Papers

SIG

HYP

arXiv cs.CL·19 mai

Proof-Carrying Certificates for LLM Pipelines: A Trust-Boundary Architecture

Framework de vérification formelle pour pipelines LLM via certificats Lean 4. Trois familles de certificats (bilattice, sensibilité embedding, Hoare-style) + deux opérateurs (Maximal Certifiable Residue, Compositional Stability) pour déploiements critiques (finance régulée, support clinique, agents). Artefact compilé couvre 22 types de certificats, 17/46 déclarations sans axiomes.

Raisonnement Sécurité IA Agents IA

SIG

HYP

arXiv cs.CL·19 mai

Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need?

Article arXiv proposant un cadre formel pour combiner évaluations LLM et humaines. Utilise un estimateur doublement robuste (missing data) pour déterminer le nombre optimal de revues humaines nécessaires. Shift du rôle LLM : de substitutif à auxiliaire dans un design d'échantillonnage deux étapes.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Linguistic Uncertainty and Reply Engagement on X: A Cross-Domain Replication of the Uncertainty-Reply Asymmetry

Étude de 2 258 posts en anglais (avril 2026) montrant que les posts avec langage incertain reçoivent 82% plus de réponses que les posts certains. Régression confirme association positive (β=0.126, p=0.011), soit ~13% d'engagement accru. Réplique asymétrie observée en arabe, suggérant mécanisme interactionnel universel.

Papers Évaluations

SIG

HYP

arXiv cs.CL·19 mai

LLM-Based Intelligent Notification Composition: From Static Personalization to Context-Aware Persuasive Messaging

Étude sur l'utilisation des LLM pour composer des notifications push personnalisées et persuasives. Les auteurs définissent 6 dimensions de qualité (pertinence contextuelle, clarté, actionnabilité, etc.) et montrent des gains de +8% à +14.5% en CTR vs templates statiques. Propose un framework architectural avec routing budgété, génération ancrée et apprentissage en ligne.

Prompt engineering RAG Business

SIG

HYP

arXiv cs.CL·19 mai

Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency

Étude de 38 modèles sur 8 900 références académiques : la qualité du rappel factuel suit une sigmoïde combinant la taille du modèle et la fréquence du sujet dans les données d'entraînement. Ces deux variables expliquent 60-94% de la variance. Le modèle propose que le rappel est limité par un rapport signal/bruit.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

EnvFactory automatise la création d'environnements exécutables et la synthèse de trajectoires multi-tours pour l'entraînement d'agents RL. Avec 85 environnements vérifiés sur 7 domaines, le framework génère 2 575 trajectoires SFT/RL et améliore les modèles Qwen3 de +15% sur BFCLv3, +8.6% sur MCP-Atlas et +6% sur conversational benchmarks.

Agents IA Reinforcement learning Génération de code

SIG

HYP

arXiv cs.CL·19 mai

Language-Switching Triggers Take a Latent Detour Through Language Models

Étude de circuit d'une backdoor dans un modèle 8B : un trigger Latin de 3 mots redirige la sortie anglaise vers le français. Le circuit opère en 3 phases via des têtes d'attention, une propagation orthogonale aux directions de langue naturelle, puis conversion MLP. Un goulot d'étranglement sériel à une position unique contrôle tout le flux.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·19 mai

MA$^{2}$P: A Meta-Cognitive Autonomous Intelligent Agents Framework for Complex Persuasion

MA²P est un framework multi-agent autonome pour la persuasion complexe. Il coordonne la gestion de la perception, l'inférence d'états mentaux, l'exécution de stratégies et l'évaluation des performances. Un configurateur meta-cognitif sélectionne une méta-stratégie adaptée au domaine pour améliorer la généralisation et le taux de succès de persuasion.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

GUT-IS: A Data-Driven Approach to Integrating Constructs and Their Relations in Information Systems

Approche data-driven pour intégrer les construits et leurs relations dans les systèmes d'information. Combine embeddings textuels adaptés et clustering pour regrouper les construits de modèles d'équations structurelles. Optimise le compromis entre pureté sémantique et parcimonie via une fonction de perte explicite.

Embeddings Papers

SIG

HYP

arXiv cs.CL·19 mai

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

LongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs long-context, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.CL·19 mai

Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

Étude des représentations internes des Large Reasoning Models (LRMs) via des trajectoires de probes. Les auteurs montrent que l'évolution continue d'un concept pendant le raisonnement prédit mieux le comportement final que des prédictions statiques. Max-pooling atteint 95% AUROC sur 4 datasets (sécurité, mathématiques).

Raisonnement Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Easier to Judge than to Find: Predicting In-Context Learning Success for Demonstration Selection

DiSP, un framework de sélection de démonstrations pour l'apprentissage en contexte, prédit si une paire requête-contexte réussira plutôt que de chercher le contexte optimal. Sur 5 datasets de classification avec Llama 3-8B et Qwen 2.5-7B, DiSP améliore la précision de 3,4% et accélère l'inférence de 23×.

Prompt engineering Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Implicit Hierarchical GRPO: Decoupling Tool Invocation from Execution for Tool-Integrated Mathematical Reasoning

Nouvel algorithme IH-GRPO découplant l'invocation d'outils de leur exécution pour améliorer le raisonnement mathématique des LLM. Gains de 1.87–2.53% sur benchmarks mathématiques avec Qwen3 (1.7B–8B). Code disponible.

Raisonnement Agents IA Reinforcement learning

SIG

HYP

arXiv cs.CL·19 mai

Vector RAG vs LLM-Compiled Wiki: A Preregistered Comparison on a Small Multi-Domain Research

Étude préenregistrée comparant Vector RAG et wiki markdown compilé par LLM sur 13 questions sur 24 papiers. Le wiki excelle à connecter les résultats entre papiers et à citer précisément, mais consomme plus de tokens en requête. Une variante RAG décomposée récupère partiellement l'avantage du wiki à coût inférieur.

RAG Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective

EvoMemBench est un benchmark unifié évaluant la mémoire des agents LLM selon deux axes : portée (in-episode vs cross-episode) et contenu (knowledge vs execution-oriented). Comparaison de 15 méthodes mémoire : les baselines long-context restent compétitives, les méthodes retrieval-based dominent pour les tâches knowledge-intensive, les méthodes procédurales pour l'execution-oriented.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.CL·19 mai

Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs

Étude comparative des jugements humains et prédictions de 4 LLMs sur la projection de présuppositions dans les conditionnels. 120 participants évalués en parallèle avec les modèles. Les humains intègrent indices probabilistes et pragmatiques ; les LLMs montrent alignement variable. Les modèles alignés aux humains manquent de raisonnement pragmatique cohérent.

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

Infini-News: Efficiently Queryable Access to 1.3 Billion Processed Common Crawl News Articles

Infini-News indexe 1,35 milliard d'articles de CC-News (août 2016 à présent) avec extraction de métadonnées, détection de langue (GlotLID, lingua, CommonLingua) et attribution géographique (83,4% couverts). Les index Infini-gram permettent des recherches textuelles en sub-seconde sur l'archive complète.

RAG Recherche vectorielle Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

EPIC est une méthode de construction d'index RAG optimisée pour les agents IA sur appareil. Elle réduit la mémoire d'indexation de 2 404× en se concentrant sur les préférences utilisateur, améliore la précision de suivi des préférences de 20,17 points et diminue la latence de récupération de 33,33×. Empreinte mémoire < 1 MB avec 29,35 ms/requête.

RAG Agents IA Embeddings

SIG

HYP

arXiv cs.CL·19 mai

Machine Unlearning for Masked Diffusion Language Models

Premiers travaux sur l'oubli machine pour modèles de diffusion masqués (LLaDA, Dream). MDU minimise la divergence KL entre prédictions conditionnelles et distribution inconditionnelle masquée, avec paramètre de température pour équilibrer confidentialité-utilité. Code disponible.

Papers Sécurité IA Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

QuantFPFlow intègre l'estimation d'amplitude quantique (Grover) dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Speedup quadratique théorique O(1/ε) vs O(1/ε²) classique. Sur tâche continue multimodale, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

STRIDE: A Self-Reflective Agent Framework for Reliable Automatic Equation Discovery

STRIDE est un framework d'agent auto-réflexif pour la découverte d'équations symboliques par LLM. Il améliore la fiabilité en coordonnant génération consciente des données, évaluation par ajustement mixte, réparation critique-exécuteur et mémoire sémantique préservant la diversité. Les expériences sur benchmarks de régression symbolique montrent gains en précision, robustesse OOD et récupération structurelle.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Prediction of Challenging Behaviors Associated with Profound Autism in a Classroom Setting Using Wearable Sensors

Étude arXiv utilisant capteurs portables (accéléromètres, EDA, température) et modèles fondamentaux multimodaux pour prédire les comportements difficiles chez 9 enfants autistes profonds en classe. Prédiction jusqu'à 10 minutes d'avance avec AUC-ROC 0.78 sur 110.7 heures de données réelles.

Benchmarks Papers Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Scaling Accessible Mathematics on arXiv: HTML Conversion and MathML 4

arXiv améliore son offre HTML pour les articles TeX/LaTeX depuis 2023. Les progrès 2025-2026 incluent : résolution de 3000 rapports utilisateurs, conversion vers 90% sans erreur (actuellement 75%), annotations MathML 4 pour l'accessibilité vocale, et portage en Rust de LaTeXML pour réduire les coûts de calcul.

Infrastructure Open source

SIG

HYP

arXiv cs.AI·19 mai

From Prediction to Intervention: The Evolution of AI in Biomedicine

Article théorique sur la transition de l'IA biomédicale : des systèmes prédictifs basés sur données historiques vers des modèles interventionnels capables de simuler l'effet de traitements novateurs. Les architectures actuelles restent observationnelles et ne peuvent pas généraliser à des interventions non observées.

Raisonnement Papers Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Étude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles publiquement. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.

Benchmarks Open source Papers

SIG

HYP

arXiv cs.AI·19 mai

Spatial Blindness in Whole-Slide Multiple Instance Learning

Les modèles MIL sur whole-slide images souffrent de « cécité spatiale » : ils prédisent correctement mais ignorent l'architecture tissulaire. ResTopoMIL corrige cela en séparant statistiques d'apparence (histogramme prototype) et relations spatiales (branche graphe avec contrainte de permutation). Amélioration sur 9 benchmarks WSI avec 1.15M paramètres.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

ContraFix: Agentic Vulnerability Repair via Differential Runtime Evidence and Skill Reuse

ContraFix est un framework agentic pour la réparation automatique de vulnérabilités qui combine des preuves d'exécution différentielles et la réutilisation de compétences. Sur SEC-Bench (C/C++) et PatchEval (Go, Python, JavaScript), il atteint 84,0% et 73,8% de résolution avec GPT-4-mini, surpassant les baselines tout en coûtant moins d'un tiers.

Agents IA Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

FactorizedHMR: A Hybrid Framework for Video Human Mesh Recovery

FactorizedHMR propose un cadre hybride deux étapes pour la récupération de maillage humain en vidéo. Un module de régression déterministe stabilise le torse et la racine, tandis qu'un module probabiliste par flow-matching complète les articulations distales (bras, jambes) ambiguës. Supervision géométrique et guidance sans classificateur améliorent la récupération sous occlusion.

Vision Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Differentiable Optimization Layered Safety-Critical Control for Risk-Aware Navigation via Conformal Prediction

Méthode de contrôle sécuritaire pour la navigation autonome en environnements inconnus. Utilise la prédiction conforme pour générer des ellipsoïdes d'obstacles tenant compte des incertitudes capteurs, puis deux couches d'optimisation différentiable pour construire des fonctions de barrière de contrôle. Validée par simulation numérique.

Robotique Sécurité IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Artificial Intelligence can Recognize Whether a Job Applicant is Selling and/or Lying According to Facial Expressions and Head Movements Much More Correctly Than Human Interviewers

Des modèles de deep learning analysant expressions faciales et mouvements de tête dans des vidéos d'entretiens d'embauche asynchrones détectent l'honnêteté et la tromperie avec 91% et 84% de variance expliquée. Performance supérieure aux évaluateurs humains sur N=121 candidats.

Vision Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

An Interpretable Closed-Loop Intelligent Tutoring System for Multimodal Affective Feedback in Asynchronous Presentation Training

Système tutoriel intelligent fermé utilisant XGBoost pour évaluer les compétences de présentation orale via analyse multimodale (facial, vocal, textuel, oculomoteur). Entraîné sur 10 360 vidéos MOOC, il génère des retours alignés sur une échelle BARS 7 dimensions. Étude sur 204 apprenants sur 30 jours : améliorations significatives (Cohen's d = 0.39-0.90), corrélation forte entre fréquence de pratique et performance.

Évaluations Vision Voix

SIG

HYP

arXiv cs.AI·19 mai

SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

SaaSBench est le premier benchmark pour évaluer les agents IA dans l'ingénierie SaaS d'entreprise. Il contient 30 tâches complexes sur 6 domaines SaaS avec 8 langages, 6 bases de données et 13 frameworks. Les expériences révèlent que >95% des échecs surviennent avant la logique métier : les agents échouent à configurer et intégrer les systèmes multi-composants.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

KairosHope: A Next-Generation Time-Series Foundation Model for Specialized Classification via Dual-Memory Architecture

KairosHope est un modèle fondation pour séries temporelles remplaçant l'attention quadratique par une architecture dual-memory (modules Titans + Continuum Memory System). Pré-entraîné sur l'archive Monash via MTSM et contrastive learning, il fusionne représentations latentes et features statistiques. Résultats supérieurs sur UCR pour HAR et données capteurs.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Few-Shot Network Intrusion Detection Using Online Triplet Mining

Système de détection d'intrusions réseau utilisant des triplet networks avec mining en ligne et classifieur KNN. Approche few-shot capable de détecter des attaques avec seulement 10 exemples malveillants par classe, surpassant les méthodes supervisées classiques sur petits datasets et les modèles d'anomalie (faux positifs élevés).

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Controlling False Discovery in Arbitrarily Structured Hypothesis Spaces via Reproducing Kernels

Nouvelle méthode pour contrôler le False Discovery Rate (FDR) dans des espaces d'hypothèses structurés via noyaux reproduisants. Reformule le problème en apprentissage régularisé dans un RKHS, unifiant domaines continus, graphes et hiérarchies. Validation sur données spatiales et expression génique différentielle.

Papers Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Beyond Accuracy: Robustness, Interpretability and Expressiveness of EEG Foundation Models

Étude comparative de 6 modèles fondamentaux EEG sur 8 datasets, au-delà de la précision brute. Analyse de robustesse (bruit, dropout de canaux), interprétabilité via Attention-Aware Layer-Wise Relevance Propagation, et expressivité par probing. Résultats : pas de modèle dominant tous les modes de défaillance ; les modèles se concentrent sur les régions cérébrales pertinentes mais décodent mal le contenu corrompu.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

SynVA: A Modular Toolkit for Vessel Generation and Aneurysm Editing

SynVA est un toolkit modulaire pour générer des mailles vasculaires et synthétiser des anévrismes intracrâniens anatomiquement cohérents. Combine des méthodes flow-matching pour les vaisseaux sains et des approches conditionnées par l'anatomie pour les anévrismes. Libère un dataset de 50 000 échantillons annotés pour les tâches de vision médicale.

Vision Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

Étude d'une nouvelle attaque « sleeper memory poisoning » contre les agents LLM dotés de mémoire persistante. Un adversaire corrompt des documents externes pour injecter de fausses mémoires utilisateur. Taux de succès : 99,8% (GPT-5.5), 95% (Kimi-K2.6). Les mémoires empoisonnées déclenchent des actions malveillantes dans 60-89% des cas.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

SparseSAM: Structured Sparsification of Activations in Segment Anything Models

SparseSAM propose une sparsification structurée sans entraînement pour accélérer les encodeurs ViT du Segment Anything Model. Via une attention Stripe-Sort (permutation Z-order) et un MLP Residual-Consistency, le framework atteint 2x speedup et 2.8x réduction mémoire avec perte de 0.004 mIoU à densité 0.4.

Vision Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Training Infinitely Deep and Wide Transformers

Article théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Lance est un modèle multimodal unifié léger supportant compréhension, génération et édition d'images et vidéos. Basé sur une architecture dual-stream mixture-of-experts avec encodage positionnel rotatif modulé par modalité, il combine apprentissage multi-tâche collaboratif et planification adaptative des données pour surpasser les modèles open-source existants en génération visuelle.

Vision Génération de vidéos Génération d'images

SIG

HYP

arXiv cs.AI·19 mai

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

StructLens analyse l'organisation interne des représentations dans les modèles de langage via des arbres couvrants maximaux construits sur les flux résiduels. Le framework révèle que les couches intermédiaires organisent fortement les tokens proches, et que les unités locales émergent avant les unités plus larges lors du pré-entraînement.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

OSCAR quantifie les caches KV en INT2 pour les LLM long-context en estimant hors-ligne les structures de covariance alignées avec l'attention. Testé sur Qwen3 (4B–32B) et GLM-4.7 (358B), la méthode réduit l'écart de précision à 1.42–3.78 points vs BF16, réduit la mémoire de 8x et améliore le débit de 7x. Kernel INT2 compatible vLLM/SGLang.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Evidence of a Cognitive Shift in AI Education: How Students Are Rethinking Human Intelligence?

Étude longitudinale (2020-2026) auprès de 471 étudiants en IA montrant un renversement de préférence : de 2024 à 2026, la valorisation de l'intelligence humaine passe de 53% à 65% en cours technique et 90% en cours design. Les auteurs identifient quatre phases (hype, distrust, trust, dependency) et concluent à une réévaluation progressive de l'IA comme outil routinier.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Optimal Knock-Pick Planning for Tightly Packed Tabletop Blocks With Parallel Grippers

Étude du réarrangement d'objets densément empilés sur table avec des pinces parallèles. Introduit une primitive de « knock » (coup) pour contourner l'infaisabilité des prises directes. Formule le problème knock-pick optimal et propose des abstractions avec appariement parfait de poids maximal pour calculer en temps polynomial un plan minimisant le nombre d'actions. Validé en simulation (IsaacSim).

Robotique Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Virtues of Ordered Chaos: Planning with Topple Actions in Tabletop Stack Rearrangement

Étude de la réorganisation de piles d'objets en environnement tabulaire via des actions non-préhensiles (toppling). Un gadget graphique abstrait modélise l'intercalage de pick-and-place et topple. Benchmarks en simulation IsaacSim montrent réduction significative du temps d'exécution comparé aux seules actions pick-and-place.

Robotique Papers

SIG

HYP