Archives

mai 2026

3148 articles

arXiv cs.CL·

ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

ChemVA, un framework pour améliorer la compréhension des diagrammes de réactions chimiques par les LLMs. Combine détection visuelle multi-granularité des groupes fonctionnels et alignement sémantique pour activer le raisonnement chimique latent. Atteint 92% de précision de reconnaissance structurelle sur OCRD-Bench et +20 points de performance sur 9 LLMs.

VisionRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation

HEED propose une méthode d'alignement résiduel pondéré par densité pour distiller des modèles vision-langage (ex. Qwen3-VL-8B) en architectures hybrides Mamba-2/attention. La technique cible les patches haute-densité (texte, détails fins) qui subissent 3.6× plus de dérive résiduelle. Résultats : +8.7 points OCRBench v2, +5.13 points en moyenne, 4.12× throughput, 68% économie mémoire.

VisionFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Scale Determines Whether Language Models Organize Representation Geometry for Prediction

Étude sur l'organisation géométrique des représentations dans les modèles de langage selon leur échelle. Subspace PGA mesure l'alignement de la géométrie intermédiaire avec la matrice d'unembedding. Modèles petits (≤1024) perdent progressivement cette organisation aux couches tardives, tandis que grands modèles (≥2048) la préservent. L'échelle détermine comment la géométrie s'organise pour la prédiction.

PapersRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

D²Evo est un framework RL pour améliorer le raisonnement des LLM. Il résout la rareté des samples de difficulté moyenne en minant des anchors adaptés à la capacité du modèle et en entraînant un Questioner à générer des questions diversifiées. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K samples réels.

Reinforcement learningRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Attractor-Vascular Coupling Theory: Formal Grounding and Empirical Validation for AAMI-Standard Cuffless Blood Pressure Estimation from Smartphone Photoplethysmography

Théorie du couplage attracteur-vasculaire (AVCT) : cadre mathématique montrant que la géométrie de l'attracteur cardiaque encode l'information de pression artérielle. Modèle LightGBM calibré sur PPG smartphone atteint MAE 2.05 mmHg (SBP) et 1.67 mmHg (DBP) en validation LOSO-CV stricte (46 sujets, 29,684 fenêtres), satisfaisant critères AAMI/IEEE SP10. PPG seul égale ECG+PPG à 0.05 mmHg près.

PapersBenchmarksÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Les pipelines RL asynchrones pour agents LLM perdent les anciens logits historiques nécessaires à la correction off-policy PPO, entrelançant correction de discordance et correction de staleness. L'article propose trois stratégies d'acquisition (snapshot, modèle dédié, interruption) et une méthode PPO-EWMA approximée pour préserver la sémantique de correction découplée.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy

Les modèles de langage en pipelines multi-agents basculent vers des réponses incorrectes sous désaccord simulé (yield). Contrairement à l'hypothèse courante, ce n'est pas l'RLHF qui en est responsable : les modèles de base non-alignés montrent le même pattern. L'activation patching localise la corruption dans une fenêtre mid-layer étroite. Un seul dissenseur argumentant correctement réduit le yield de 54-73 points.

Multi-agentsAlignementRaisonnement
SIG
82
HYP
15
arXiv cs.AI·

Embracing Biased Transition Matrices for Complementary-Label Learning with Many Classes

Les méthodes d'apprentissage par étiquettes complémentaires (CLL) restent limitées aux classifications à 10 classes. Cet article propose BICL, un cadre qui utilise intentionnellement des matrices de transition biaisées (non-uniformes) pour restreindre les étiquettes complémentaires. Sur CIFAR-100 et TinyImageNet-200, BICL améliore la précision de plus de 7× par rapport aux méthodes traditionnelles.

PapersBenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Outil computationnel pour classifier les verbes de manière et de résultat à grande échelle. Utilise des prompts linguistiques avec LLM pour générer des annotations sur MASC et InterCorp (436 classes VerbNet). Classifier RoBERTa atteint 89,6% de précision sur trois datasets gold-standard. Applicable à la recherche développementale sur la sémantique verbale.

PapersBenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.CL·

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

AgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur des configurations inédites. Les agents testés (Cursor Agent, Claude Code, Codex) atteignent des speedups jusqu'à 6.89x, mais montrent des faiblesses en généralisation pour PyTorch-to-HIP.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

MixSD est une méthode de fine-tuning sans modèle externe qui injecte des connaissances en mélangeant dynamiquement les tokens du modèle lui-même : une branche « expert » observant le fait à injecter, une branche « naïve » reflétant les priors originaux. Sur benchmarks de QA et d'édition de connaissances, MixSD retient jusqu'à 100% des capacités du modèle de base contre 1% pour SFT standard.

Fine-tuningRaisonnementPapers
SIG
78
HYP
15
arXiv cs.CL·

Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models

Les grands modèles de raisonnement (LRM) génèrent des traces alignées avec les temps de réaction humains, mais cet alignement persiste indépendamment du budget de raisonnement en inférence. Étude sur GPT-OSS-20B et GPT-OSS-120B : l'allocation de tokens suit les patterns de difficulté humains et reste invariante across effort levels, suggérant que l'alignement cognitif est figé au training time.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.CL·

PARALLAX: Separating Genuine Hallucination Detection from Benchmark Construction Artifacts

PARALLAX révèle que 4 des 6 benchmarks majeurs de détection d'hallucinations contiennent la réponse correcte dans le prompt, permettant à une baseline naïve (TxTemb) d'atteindre une détection quasi-parfaite sans accès aux états internes du modèle. Évaluation de 22 méthodes sur 12 modèles open-source : la plupart échouent en conditions contrôlées, sauf SAPLMA et DRIFT (probes supervisées sur états cachés supérieurs).

BenchmarksÉvaluationsSécurité IA
SIG
82
HYP
15
arXiv cs.CL·

SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning

SEMA-RAG est un framework multi-agent pour la génération augmentée par récupération (RAG) appliquée au raisonnement médical. Il décompose le processus en trois agents spécialisés : interprétation clinique, exploration itérative de documents, et adjudication des preuves. Testé sur 5 benchmarks et 5 backbones LLM, il améliore les baselines de +6,46 points de précision en moyenne.

Multi-agentsRAGRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Thinking with Patterns: Breaking the Perceptual Bottleneck in Visual Planning via Pattern Induction

Les VLMs peinent à planifier à partir d'entrées visuelles complexes. Cet article propose Pattern Induction, une stratégie d'apprentissage inductif en ligne qui découvre et optimise des motifs visuels réutilisables comme experts composites. Pattern Inference permet aux VLMs de reconnaître ces motifs et d'inférer directement les structures du modèle du monde. Évalué sur FrozenLake, Crafter et CubeBench.

VisionRaisonnementPapers
SIG
45
HYP
35
arXiv cs.CL·

FIM-LoRA: Task-Informative Rank Allocation for LoRA via Calibration-Time Gradient-Variance Estimation

FIM-LoRA optimise l'allocation de rang dans LoRA en utilisant 8 passes de calibration pour estimer la variance des gradients par couche. Cette approche sans paramètres supplémentaires atteint les mêmes performances que LoRA standard (88.6 vs 88.7 sur GLUE avec DeBERTa-v3-base) tout en réduisant les coûts mémoire de 256x comparé à l'estimation Fisher complète.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injecter des brouillons mathématiquement faux d'un petit modèle (Qwen2.5-Math-1.5B) mal appariés au problème courant dans le contexte GRPO d'un modèle plus fort (Mathstral-7B) surpasse le GRPO standard. Sur MATH-500, le variant mal apparié atteint 71,98% (meilleur résultat publié pour ce modèle), +1,62pp vs variant bien apparié, sans SFT ni modèles de récompense.

Reinforcement learningRaisonnementBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

Taming "Zombie'' Agents: A Markov State-Aware Framework for Resilient Multi-Agent Evolution

AgentRevive propose un cadre Markov pour l'évolution résiliente de systèmes multi-agents LLM. Au lieu de supprimer agressivement les agents défaillants, la méthode utilise des transitions d'état souples (Actif/Standby/Terminé) avec un estimateur de risque d'hallucination. Résultats : surpasse les baselines sur raisonnement général, tâches spécialisées et défis d'hallucination, réduisant la consommation de tokens.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
25
arXiv cs.CL·

AMATA: Adaptive Multi-Agent Trajectory Alignment for Knowledge-Intensive Question Answering

AMATA est un framework multi-agent adaptatif pour le question-answering intensif en connaissances. Six agents spécialisés collaborent via des actions structurées pour améliorer la cohérence factuelle et réduire les hallucinations. Le système formalise la collaboration comme un problème d'alignement de trajectoires avec apprentissage des préférences intra et inter-agents.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
28
arXiv cs.CL·

Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization

Méthode d'adaptation de vocabulaire parameter-efficient pour améliorer la tokenization des LLM sur domaines spécialisés (légal, médical). Testée sur Llama-3.1-8B et Qwen2.5-7B : réduit le temps d'entraînement de 35-55% vs continual pretraining, diminue les paramètres de 37% vs expansion-only, améliore la qualité des résumés via tokens domain-spécifiques.

Fine-tuningLlamaQwen
SIG
78
HYP
15
arXiv cs.CL·

BELIEF: Structured Evidence Modeling and Uncertainty-Aware Fusion for Biomedical Question Answering

BELIEF combine modélisation structurée des preuves et fusion consciente de l'incertitude pour la réponse à questions biomédicales. Le framework convertit documents récupérés en objets d'evidence (attributs cliniques, qualité source, pertinence, force de support) et fusionne deux chemins : symbolique (théorie Dempster-Shafer) et neural (LLM). Résultats SOTA sur PubMedQA, MedQA, MedMCQA avec 5 backbones LLM.

RAGRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

The Unlearnability Phenomenon in RLVR for Language Models

Étude révélant un phénomène d'« inapprenabilité » dans l'apprentissage par renforcement avec récompense vérifiable (RLVR) pour LLM. Certains exemples difficiles restent non-apprenables même avec des trajectoires correctes. L'analyse montre des défauts de représentation fondamentaux : faible similarité de gradient et patterns de raisonnement non-généralisables. L'augmentation de données ne résout pas le problème.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.CL·

Beyond Transcripts: Iterative Peer-Editing with Audio Unlocks High-Quality Human Summaries of Conversational Speech

Étude comparative de 10 workflows d'annotation pour la résumé de parole conversationnelle. Les résumés basés sur audio sont moins informatifs que ceux basés sur transcripts, mais l'édition itérative par pairs avec audio compense cette différence. Validation de cette approche pour créer des benchmarks intégrant informations lexicales et prosodiques.

BenchmarksVoixÉvaluations
SIG
72
HYP
18
arXiv cs.CL·

Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning

Des chercheurs montrent que des petits modèles (Gemma 4 E4B, Qwen3-4B) fine-tunés avec QLoRA 8-bit internalisent la connaissance des outils sans nécessiter leurs schémas en prompt. Sur AssetOpsBench, les modèles fine-tunés surpassent les baselines non fine-tunés : réduction de 82,6% de la longueur d'entrée, AT-F1 de 0,65 vs 0,47, et 2,5× plus rapide pour Qwen3.

Fine-tuningAgents IAQwen
SIG
78
HYP
15
arXiv cs.CL·

To MRL or not to MRL: Text Embeddings are Robust to Truncation Without Matryoshka Embeddings, Except In Heavy Truncation Scenarios

Une étude arXiv compare l'apprentissage Matryoshka (MRL) avec la troncature simple d'embeddings textuels. Les résultats montrent que sans MRL, les embeddings restent robustes jusqu'à 80% de réduction dimensionnelle. MRL n'offre un avantage que pour les troncatures très agressives (>80%), remettant en question son coût d'entraînement systématique.

EmbeddingsPapersBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Systematic Evaluation of the Quality of Synthetic Clinical Notes Rephrased by LLMs at Million-Note Scale

Évaluation systématique de notes cliniques synthétiques générées par LLM à l'échelle du million de notes. L'étude montre que les notes synthétiques préservent les informations cliniques essentielles pour les tâches grossières mais perdent les détails fins pour le codage ICD. Le rephrasing par chunks réduit cette perte mais diminue la précision factuelle.

BenchmarksÉvaluationsSécurité IA
SIG
78
HYP
15
arXiv cs.CL·

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B. Code open-source disponible.

Reinforcement learningBenchmarksOpen source
SIG
82
HYP
25
arXiv cs.CL·

AutoVecCoder: Teaching LLMs to Generate Explicitly Vectorized Code

AutoVecCoder enseigne aux LLMs à générer du code vectorisé explicite via SIMD. Le framework combine VecPrompt (synthèse de données pour injecter la connaissance des intrinsics) et VecRL (apprentissage par renforcement aligné sur l'efficacité). AutoVecCoder-8B atteint l'état de l'art sur SimdBench (SSE/AVX) et surpasse parfois les optimisations -O3.

Génération de codeReinforcement learningBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agentsAgents IAPrompt engineering
SIG
78
HYP
18
arXiv cs.CL·

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Étude sur la « dérive d'alignement » : processus graduel où les sorties LLM deviennent moins contraintes par le message actuel de l'utilisateur et plus façonnées par l'historique d'interaction, tout en restant utiles. Framework mécaniste distinguant signaux A/B, boucles de rétroaction et régimes interactionnels pour contrôler cette dérive cumulative.

AlignementAgents IASécurité IA
SIG
72
HYP
18
arXiv cs.CL·

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

MINE (Mechanistically Interpretable Neural Encoding) applique les outils d'interprétabilité mécanique aux réseaux de neurones pour identifier les caractéristiques visuelles qui activent chaque voxel du cortex visuel humain. Validation par génération d'images et édition contrefactuelle : insérer/retirer les features prédites modifie l'activation neuronale comme prévu.

VisionPapers
SIG
78
HYP
15
arXiv cs.CL·

Proof-Carrying Certificates for LLM Pipelines: A Trust-Boundary Architecture

Framework de vérification formelle pour pipelines LLM via certificats Lean 4. Trois familles de certificats (bilattice, sensibilité embedding, Hoare-style) + deux opérateurs (Maximal Certifiable Residue, Compositional Stability) pour déploiements critiques (finance régulée, support clinique, agents). Artefact compilé couvre 22 types de certificats, 17/46 déclarations sans axiomes.

RaisonnementSécurité IAAgents IA
SIG
78
HYP
15
arXiv cs.CL·

LLM-Based Intelligent Notification Composition: From Static Personalization to Context-Aware Persuasive Messaging

Étude sur l'utilisation des LLM pour composer des notifications push personnalisées et persuasives. Les auteurs définissent 6 dimensions de qualité (pertinence contextuelle, clarté, actionnabilité, etc.) et montrent des gains de +8% à +14.5% en CTR vs templates statiques. Propose un framework architectural avec routing budgété, génération ancrée et apprentissage en ligne.

Prompt engineeringRAGBusiness
SIG
72
HYP
28
arXiv cs.CL·

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

EnvFactory automatise la création d'environnements exécutables et la synthèse de trajectoires multi-tours pour l'entraînement d'agents RL. Avec 85 environnements vérifiés sur 7 domaines, le framework génère 2 575 trajectoires SFT/RL et améliore les modèles Qwen3 de +15% sur BFCLv3, +8.6% sur MCP-Atlas et +6% sur conversational benchmarks.

Agents IAReinforcement learningGénération de code
SIG
78
HYP
25
arXiv cs.CL·

MA$^{2}$P: A Meta-Cognitive Autonomous Intelligent Agents Framework for Complex Persuasion

MA²P est un framework multi-agent autonome pour la persuasion complexe. Il coordonne la gestion de la perception, l'inférence d'états mentaux, l'exécution de stratégies et l'évaluation des performances. Un configurateur meta-cognitif sélectionne une méta-stratégie adaptée au domaine pour améliorer la généralisation et le taux de succès de persuasion.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
35
arXiv cs.CL·

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

LongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs long-context, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.

Agents IABenchmarksRAG
SIG
78
HYP
15
arXiv cs.CL·

EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective

EvoMemBench est un benchmark unifié évaluant la mémoire des agents LLM selon deux axes : portée (in-episode vs cross-episode) et contenu (knowledge vs execution-oriented). Comparaison de 15 méthodes mémoire : les baselines long-context restent compétitives, les méthodes retrieval-based dominent pour les tâches knowledge-intensive, les méthodes procédurales pour l'execution-oriented.

Agents IABenchmarksRAG
SIG
78
HYP
22
arXiv cs.CL·

Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs

Étude comparative des jugements humains et prédictions de 4 LLMs sur la projection de présuppositions dans les conditionnels. 120 participants évalués en parallèle avec les modèles. Les humains intègrent indices probabilistes et pragmatiques ; les LLMs montrent alignement variable. Les modèles alignés aux humains manquent de raisonnement pragmatique cohérent.

BenchmarksRaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

QuantFPFlow intègre l'estimation d'amplitude quantique (Grover) dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Speedup quadratique théorique O(1/ε) vs O(1/ε²) classique. Sur tâche continue multimodale, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).

Reinforcement learningRaisonnementBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

STRIDE: A Self-Reflective Agent Framework for Reliable Automatic Equation Discovery

STRIDE est un framework d'agent auto-réflexif pour la découverte d'équations symboliques par LLM. Il améliore la fiabilité en coordonnant génération consciente des données, évaluation par ajustement mixte, réparation critique-exécuteur et mémoire sémantique préservant la diversité. Les expériences sur benchmarks de régression symbolique montrent gains en précision, robustesse OOD et récupération structurelle.

Agents IARaisonnementBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Étude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles publiquement. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.

BenchmarksOpen sourcePapers
SIG
78
HYP
15
arXiv cs.AI·

ContraFix: Agentic Vulnerability Repair via Differential Runtime Evidence and Skill Reuse

ContraFix est un framework agentic pour la réparation automatique de vulnérabilités qui combine des preuves d'exécution différentielles et la réutilisation de compétences. Sur SEC-Bench (C/C++) et PatchEval (Go, Python, JavaScript), il atteint 84,0% et 73,8% de résolution avec GPT-4-mini, surpassant les baselines tout en coûtant moins d'un tiers.

Agents IAGénération de codeRaisonnement
SIG
82
HYP
25
arXiv cs.AI·

FactorizedHMR: A Hybrid Framework for Video Human Mesh Recovery

FactorizedHMR propose un cadre hybride deux étapes pour la récupération de maillage humain en vidéo. Un module de régression déterministe stabilise le torse et la racine, tandis qu'un module probabiliste par flow-matching complète les articulations distales (bras, jambes) ambiguës. Supervision géométrique et guidance sans classificateur améliorent la récupération sous occlusion.

VisionPapersBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Differentiable Optimization Layered Safety-Critical Control for Risk-Aware Navigation via Conformal Prediction

Méthode de contrôle sécuritaire pour la navigation autonome en environnements inconnus. Utilise la prédiction conforme pour générer des ellipsoïdes d'obstacles tenant compte des incertitudes capteurs, puis deux couches d'optimisation différentiable pour construire des fonctions de barrière de contrôle. Validée par simulation numérique.

RobotiqueSécurité IARaisonnement
SIG
45
HYP
15
arXiv cs.AI·

Artificial Intelligence can Recognize Whether a Job Applicant is Selling and/or Lying According to Facial Expressions and Head Movements Much More Correctly Than Human Interviewers

Des modèles de deep learning analysant expressions faciales et mouvements de tête dans des vidéos d'entretiens d'embauche asynchrones détectent l'honnêteté et la tromperie avec 91% et 84% de variance expliquée. Performance supérieure aux évaluateurs humains sur N=121 candidats.

VisionBenchmarksÉvaluations
SIG
72
HYP
45
arXiv cs.AI·

An Interpretable Closed-Loop Intelligent Tutoring System for Multimodal Affective Feedback in Asynchronous Presentation Training

Système tutoriel intelligent fermé utilisant XGBoost pour évaluer les compétences de présentation orale via analyse multimodale (facial, vocal, textuel, oculomoteur). Entraîné sur 10 360 vidéos MOOC, il génère des retours alignés sur une échelle BARS 7 dimensions. Étude sur 204 apprenants sur 30 jours : améliorations significatives (Cohen's d = 0.39-0.90), corrélation forte entre fréquence de pratique et performance.

ÉvaluationsVisionVoix
SIG
72
HYP
18
arXiv cs.AI·

SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

SaaSBench est le premier benchmark pour évaluer les agents IA dans l'ingénierie SaaS d'entreprise. Il contient 30 tâches complexes sur 6 domaines SaaS avec 8 langages, 6 bases de données et 13 frameworks. Les expériences révèlent que >95% des échecs surviennent avant la logique métier : les agents échouent à configurer et intégrer les systèmes multi-composants.

Agents IAGénération de codeBenchmarks
SIG
82
HYP
15
arXiv cs.AI·

KairosHope: A Next-Generation Time-Series Foundation Model for Specialized Classification via Dual-Memory Architecture

KairosHope est un modèle fondation pour séries temporelles remplaçant l'attention quadratique par une architecture dual-memory (modules Titans + Continuum Memory System). Pré-entraîné sur l'archive Monash via MTSM et contrastive learning, il fusionne représentations latentes et features statistiques. Résultats supérieurs sur UCR pour HAR et données capteurs.

BenchmarksPapersRaisonnement
SIG
72
HYP
35
arXiv cs.AI·

Beyond Accuracy: Robustness, Interpretability and Expressiveness of EEG Foundation Models

Étude comparative de 6 modèles fondamentaux EEG sur 8 datasets, au-delà de la précision brute. Analyse de robustesse (bruit, dropout de canaux), interprétabilité via Attention-Aware Layer-Wise Relevance Propagation, et expressivité par probing. Résultats : pas de modèle dominant tous les modes de défaillance ; les modèles se concentrent sur les régions cérébrales pertinentes mais décodent mal le contenu corrompu.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
15
arXiv cs.AI·

Training Infinitely Deep and Wide Transformers

Article théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Lance est un modèle multimodal unifié léger supportant compréhension, génération et édition d'images et vidéos. Basé sur une architecture dual-stream mixture-of-experts avec encodage positionnel rotatif modulé par modalité, il combine apprentissage multi-tâche collaboratif et planification adaptative des données pour surpasser les modèles open-source existants en génération visuelle.

VisionGénération de vidéosGénération d'images
SIG
72
HYP
28
arXiv cs.AI·

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

OSCAR quantifie les caches KV en INT2 pour les LLM long-context en estimant hors-ligne les structures de covariance alignées avec l'attention. Testé sur Qwen3 (4B–32B) et GLM-4.7 (358B), la méthode réduit l'écart de précision à 1.42–3.78 points vs BF16, réduit la mémoire de 8x et améliore le débit de 7x. Kernel INT2 compatible vLLM/SGLang.

RaisonnementBenchmarksInfrastructure
SIG
82
HYP
15
arXiv cs.AI·

Evidence of a Cognitive Shift in AI Education: How Students Are Rethinking Human Intelligence?

Étude longitudinale (2020-2026) auprès de 471 étudiants en IA montrant un renversement de préférence : de 2024 à 2026, la valorisation de l'intelligence humaine passe de 53% à 65% en cours technique et 90% en cours design. Les auteurs identifient quatre phases (hype, distrust, trust, dependency) et concluent à une réévaluation progressive de l'IA comme outil routinier.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
25
arXiv cs.AI·

Optimal Knock-Pick Planning for Tightly Packed Tabletop Blocks With Parallel Grippers

Étude du réarrangement d'objets densément empilés sur table avec des pinces parallèles. Introduit une primitive de « knock » (coup) pour contourner l'infaisabilité des prises directes. Formule le problème knock-pick optimal et propose des abstractions avec appariement parfait de poids maximal pour calculer en temps polynomial un plan minimisant le nombre d'actions. Validé en simulation (IsaacSim).

RobotiqueRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Content-Style Identification via Differential Independence

Nouvel article arXiv proposant CSDI (content-style differential independence) pour identifier les facteurs de contenu et style dans les modèles génératifs multi-domaines. Relaxe les conditions d'indépendance statistique antérieures via une contrainte d'orthogonalité sur les sous-espaces jacobiens. Démontre l'identifiabilité même avec contenu/style dépendants et jacobien dense.

PapersGénération d'imagesRaisonnement
SIG
72
HYP
15