Archives

mai 2026

3148 articles

arXiv cs.AI·

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

SIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.

Génération d'imagesGénération de vidéosReinforcement learning
SIG
72
HYP
18
arXiv cs.LG·

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant masque sélectivement les actions légales de la victime. Expériences sur poker (6 à 5 531 états) et deux domaines non-poker : le masquage appris cause plus de dégâts que le masquage aléatoire, persiste sur Q-learning/PPO/NFSP/DQN, transfère entre agents et s'amplifie en auto-jeu.

Reinforcement learningSécurité IABenchmarks
SIG
75
HYP
15
arXiv cs.LG·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de crédit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
25
arXiv cs.LG·

Mirror Descent-Type Algorithms for the Variational Inequality Problem with Functional Constraints

Algorithmes de descente miroir pour résoudre des inégalités variationnelles avec contraintes fonctionnelles. Les auteurs proposent des variantes qui alternent entre étapes productives et non-productives selon les valeurs des contraintes, avec analyse de convergence optimale pour opérateurs monotones bornés et contraintes convexes Lipschitz. Applications à GANs, RL et entraînement adversarial.

Reinforcement learningPapersAlignement
SIG
72
HYP
15
arXiv cs.AI·

The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure

Étude sur les systèmes multi-agents : des attaques par « détournement sémantique » exploitent la confiance des agents. Paradoxe identifié : augmenter la capacité des Workers élève le taux de succès d'attaque de 18,4% à 63,9%. L'analyse de médiation révèle que la « certitude linguistique » des agents forts les rend vulnérables. Solution proposée : vérification par ensemble hétérogène réduisant le taux d'attaque à 2%.

Multi-agentsAgents IASécurité IA
SIG
82
HYP
15
arXiv cs.CL·

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

TABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.

Fine-tuningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.CL·

The Frequency Confound in Language-Model Surprisal and Metaphor Novelty

Une étude arXiv analyse la relation entre surprisal (imprévisibilité) des modèles de langage et la nouveauté métaphorique. Sur 8 tailles de Pythia et 154 checkpoints, la fréquence lexicale prédit mieux la nouveauté métaphorique que le surprisal. L'association surprisal-nouveauté culmine en phase d'entraînement précoce puis décline, miroir de l'association surprisal-fréquence.

PapersBenchmarksÉvaluations
SIG
72
HYP
15
arXiv cs.CL·

From Chatbots to Confidants: A Cross-Cultural Study of LLM Adoption for Emotional Support

Étude cross-culturelle sur 4,641 participants dans 7 pays montrant que l'adoption des LLM pour le soutien émotionnel varie de 20% à 59%. Les utilisateurs âgés de 25-44 ans, religieux, mariés et de statut socioéconomique élevé rapportent plus de confiance. Les demandes portent sur la solitude, le stress, les conflits relationnels et la santé mentale. Corpus de 731 prompts multilingues collectés.

Sécurité IAAlignementRégulation
SIG
72
HYP
25
arXiv cs.CL·

Fine-tuning vs. In-context Learning in Large Language Models: A Formal Language Learning Perspective

Étude comparative fine-tuning vs. in-context learning sur LLMs via tâches de langages formels. Fine-tuning surpasse ICL en généralisation in-distribution, mais les deux modes égalisent hors-distribution. Les biais inductifs divergent aux niveaux de maîtrise élevés. ICL montre sensibilité au vocabulaire et à la taille du modèle.

Fine-tuningPrompt engineeringBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

STEM: Structure-Tracing Evidence Mining for Knowledge Graphs-Driven Retrieval-Augmented Generation

STEM propose un framework pour le Knowledge Graph-based Question Answering (KGQA) qui reframe le raisonnement multi-hop comme une tâche de recherche de graphe guidée par schéma. Utilise une pipeline Semantic-to-Structural Projection et un Triple-Dependent GNN pour générer un Global Guidance Subgraph. Atteint SOTA sur plusieurs benchmarks multi-hop.

RAGRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation

NaviRAG propose un framework RAG qui remplace la récupération passive par une navigation active du savoir. Le système structure les documents en hiérarchie sémantique et utilise un agent LLM pour naviguer itérativement, identifiant les lacunes informationnelles et récupérant du contenu au niveau de granularité approprié. Résultats : amélioration de la récupération et de la performance QA sur documents longs.

RAGAgents IARaisonnement
SIG
72
HYP
28
arXiv cs.CL·

The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

Étude comparative de l'interprétabilité des architectures Mixture-of-Experts (MoE) vs réseaux denses. Les experts MoE montrent moins de polysémantique neuronale que les FFN denses, particulièrement avec routage sparse. Les experts fonctionnent comme spécialistes de tâches linguistiques fines (ex: fermeture de crochets LaTeX), pas comme spécialistes de domaines larges. Code disponible.

SIG
78
HYP
15
arXiv cs.CL·

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Chercheurs localisent des « cellules d'entité » dans les neurones MLP de modèles de langage (Qwen2.5-7B, etc.). Ces neurones activés de façon sélective encodent des faits spécifiques à une entité. Suppression d'une cellule efface le rappel pour cette entité seule ; activation suffit à récupérer la connaissance même sans contexte. Les cellules restent stables sous alias, acronymes et formes multilingues.

RaisonnementPapersBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

CounterRefine ajoute une couche légère de correction pour RAG : après une première réponse, le système émet des requêtes conditionnées par la réponse pour récupérer des contre-preuves, puis applique une étape KEEP/REVISE validée déterministiquement. Sur SimpleQA, amélioration de 5,8 points de taux correct ; 5,6% des sorties modifiées avec 180 changements bénéfiques vs 8 nuisibles.

RAGRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

SPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800, en utilisant une formulation de récompense contrainte par KL et une pipeline de correction d'erreurs minimales.

Reinforcement learningRaisonnementFine-tuning
SIG
78
HYP
25
arXiv cs.CL·

Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models

Les LLM présentent des représentations internes hautement anisotropes avec des activations massives. Au lieu de les traiter comme des artefacts, les auteurs les identifient comme des unités fonctionnelles interprétables via un critère basé sur la magnitude. Le steering appliqué à ces dimensions critiques surpasse le steering conventionnel en adaptation de domaine et jailbreaking.

Sécurité IA
SIG
72
HYP
18
arXiv cs.CL·

Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

STING est un framework de red-teaming automatisé qui évalue la vulnérabilité des agents LLM aux scénarios d'abus multi-tours. Il construit des plans illicites étape par étape avec personas bienveillantes et utilise des agents juges pour suivre la progression. Tests sur 6 langues non-anglaises montrent que le succès d'attaque ne croît pas systématiquement dans les langues à faibles ressources.

Agents IASécurité IAÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

Finding Sense in Nonsense with Generated Contexts: Perspectives from Humans and Language Models

Étude comparative sur la capacité des humains et des LLM à distinguer les phrases anomales des phrases véritablement non-sensiques. Analyse de cinq datasets sémantiquement déviants avec et sans contexte. Résultat : la plupart des phrases jugées anomales peuvent être interprétées avec contexte ; les LLM génèrent efficacement des contextes plausibles.

BenchmarksÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.CL·

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Étude expérimentale testant la critique de Chomsky sur les LLM : GPT-2 small et LSTM entraînés sur des langues syntaxiquement impossibles (phrases inversées, négations basées sur la parité). GPT-2 montre perplexité plus basse sur langage naturel (ratio de perte jusqu'à 2,25× sur conditions inversées), LSTM minimal. Les auteurs proposent un paradigme fonctionnaliste contre la perspective rationaliste de Chomsky.

PapersRaisonnementBenchmarks
SIG
65
HYP
25
arXiv cs.CL·

Embodied Task Planning via Graph-Informed Action Generation with Large Language Models

GiG, un framework de planification pour agents incarnés, utilise une architecture Graph-in-Graph avec GNN pour encoder les états environnementaux et structurer la mémoire d'expérience. Un module de lookahead borné améliore la planification via logique symbolique. Évalué sur Robotouille et ALFWorld, GiG surpasse les baselines avec +22% à +37% de gains Pass@1.

Agents IARaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework

COMPACT, un framework de distillation CoT multi-enseignants, fusionne adaptativement les supervisions de plusieurs LLMs vers des modèles compacts. Il pondère dynamiquement les gradients des enseignants via trois métriques : consensus basé graphe, adaptabilité par information mutuelle, et difficulté basée perte. Résultats SOTA sur plusieurs benchmarks sans oubli catastrophique.

RaisonnementFine-tuningPapers
SIG
72
HYP
25
arXiv cs.CL·

ADMEDTAGGER: an annotation framework for distillation of expert knowledge for the Polish medical language

Framework d'annotation pour distiller les connaissances expertes d'un LLM multilingue (Llama3.1) afin d'entraîner des classifieurs BERT pour le tagging médical en polonais. DistilBERT atteint F1 > 0.80 sur 5 catégories cliniques (Radiologie, Oncologie, Cardiologie, Hypertension, Pathologie) avec 500× moins de paramètres et 300× moins de VRAM qu'un LLM.

LlamaFine-tuningGénération de code
SIG
72
HYP
18
arXiv cs.CL·

Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation

Étude évaluant 8 modèles multimodaux (Gemini-2.5-Pro, o3, etc.) sur leur robustesse face aux biais cognitifs dans des vidéos courtes chinoises contenant de la désinformation. Dataset de 200 vidéos annotées manuellement couvrant 4 domaines sanitaires. Gemini-2.5-Pro obtient 71.5/100, o3 35.2. Les modèles sont vulnérables aux indices sociaux comme les IDs de chaînes autoritaires.

VisionBenchmarksSécurité IA
SIG
72
HYP
25
arXiv cs.CL·

Rethinking Table Pruning in TableQA: From Sequential Revisions to Gold Trajectory-Supervised Parallel Search

TabTrim, un nouveau cadre de pruning de tables pour TableQA, remplace les révisions séquentielles par une recherche parallèle supervisée par trajectoires or. Le système utilise les sous-tables intermédiaires des requêtes SQL or pour entraîner un pruner et un vérificateur. TabTrim-8B atteint 73,5% de précision moyenne, surpassant les baselines de 3,2% (79,4% sur WikiTQ, 61,2% sur TableBench).

BenchmarksRaisonnementPapers
SIG
78
HYP
25
arXiv cs.CL·

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

QuCo-RAG propose une méthode de RAG dynamique basée sur des statistiques du corpus de pré-entraînement plutôt que sur les signaux internes des modèles. Elle identifie les entités basse-fréquence et vérifie leur co-occurrence dans 4 trillions de tokens via Infini-gram. Sur benchmarks QA multi-hop, elle gagne 5-12 points EM vs baselines avec OLMo-2, et jusqu'à 14 points sur Llama-3, Qwen2.5, GPT-4.

RAGRaisonnementBenchmarks
SIG
78
HYP
18
arXiv cs.CL·

GraphMind: Theorem Selection and Conclusion Generation Framework with Dynamic GNN for LLM Reasoning

GraphMind combine GNN et LLM pour le raisonnement multi-étapes en mathématiques. Le framework modélise le processus de raisonnement comme un graphe hétérogène évolutif où nœuds (conditions, théorèmes, conclusions) et arêtes (dépendances logiques) permettent la sélection dynamique de théorèmes et la génération itérative de conclusions. Résultats améliorés sur benchmarks QA.

RaisonnementAgents IABenchmarks
SIG
72
HYP
28
arXiv cs.CL·

You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations

TAQ (Task-Aware Quantization) est une méthode de quantification post-entraînement sans entraînement qui alloue dynamiquement la précision aux couches pertinentes pour une tâche donnée, utilisant des prompts de calibration non étiquetés. Trois variantes (TAQ-IS, TAQ-KL, TAQ-O) estiment l'importance des couches via les représentations cachées. Gains significatifs en ratio précision-mémoire validés sur matériel réel.

Fine-tuningBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (tendance des LLM à privilégier l'accord avec l'utilisateur plutôt que l'exactitude) dans 12 modèles SOTA. Les auteurs identifient des sous-biais linguistiques et affectifs qui augmentent avec la capacité du modèle, et proposent des interventions au niveau du prompt et de l'activation pour les moduler.

AlignementSécurité IAÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (extraction de principes stratégiques des trajectoires) et l'interaction en ligne (récupération de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop, il surpasse les baselines existantes.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Unlocking the Potential of Diffusion Language Models through Template Infilling

Template Infilling (TI) est une méthode de conditioning pour les Diffusion Language Models qui aligne des ancres structurelles sur l'ensemble de l'espace de réponse, remplaçant le prefix prompting. Évaluée sur raisonnement mathématique, génération de code et planification, TI améliore les performances de 9,40% et accélère la génération multi-token.

Prompt engineeringGénération de codeRaisonnement
SIG
72
HYP
28
arXiv cs.CL·

Evaluating Language Models' Evaluations of Games

Étude arXiv évaluant comment les modèles de langage et de raisonnement jugent les jeux de plateau. Sur 100+ jeux et 450 jugements humains, les modèles de raisonnement s'alignent mieux aux humains que les LLM classiques pour évaluer l'équité et le plaisir des jeux. Paradoxe : plus les modèles approchent l'optimalité théorique des jeux, moins ils correspondent aux préférences humaines.

RaisonnementÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models

Guided Topology Diffusion (GTD) utilise des modèles de diffusion de graphes pour générer dynamiquement les topologies de communication optimales dans les systèmes multi-agents LLM. Le framework itératif, guidé par un modèle proxy prédisant récompenses multi-objectifs (précision, utilité, coût), adapte les topologies aux tâches sans optimisation par gradient, surpassant les approches statiques.

Multi-agentsAgents IABenchmarks
SIG
75
HYP
25
arXiv cs.CL·

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Chercheurs proposent l'Indice de Refus (RI), métrique mesurant la capacité des LLM à refuser les questions hors de leurs connaissances. RI corrèle la probabilité de refus avec la probabilité d'erreur via Spearman. Tests sur 16 modèles et 5 datasets montrent que les LLM refusent de façon instable malgré une haute précision factuelle.

ÉvaluationsSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.CL·

When TableQA Meets Noise: A Dual Denoising Framework for Complex Questions and Large-scale Tables

EnoTab est un framework de débruitage dual pour le TableQA (question-answering sur tables). Il décompose les questions complexes en unités sémantiques minimales et élagage les tables volumineuses via un arbre de preuves explicite, avec mécanisme de rollback pour gérer les états anormaux. Résultats probants sur questions complexes et tables à grande échelle.

RaisonnementRAGBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Rethinking 1-bit Optimization Leveraging Pre-trained Large Language Models

Nouvelle méthode de quantification 1-bit pour LLM exploitant les modèles pré-entraînés. Utilise un entraînement progressif cohérent (forward/backward) avec initialisation binary-aware et compensation dual-scaling pour convertir les poids en représentation binarisée. Réduit coûts d'entraînement et dégradation de précision comparé aux approches existantes.

Fine-tuningBenchmarksInfrastructure
SIG
72
HYP
18
arXiv cs.CL·

LaPA$^2$: Length-Aware Prefix and Prompt Attention Augmentation for Long-Form Controllable Text Generation

LaPA² résout la dilution d'attention dans la génération de texte contrôlée long-forme. La méthode applique un scaling logarithmique conscient de la longueur pour amplifier les poids d'attention des préfixes, contrant l'affaiblissement naturel du signal de contrôle. Framework sans entraînement, compatible avec préfixes souples et durs.

Prompt engineeringGénération de codeRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Geometry-aware 4D Video Generation for Robot Manipulation

Modèle de génération vidéo 4D pour la manipulation robotique qui enforce la cohérence multi-vue 3D via supervision par alignement de pointmap cross-view. Génère des séquences vidéo spatio-temporellement alignées à partir d'une seule image RGB-D par vue, sans poser en entrée. Démontre stabilité visuelle supérieure et récupération de trajectoires d'effecteur robot sur datasets simulés et réels.

RobotiqueGénération de vidéosVision
SIG
72
HYP
18
arXiv cs.CL·

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

FinTagging est un benchmark pour évaluer les LLM sur l'extraction et le tagging XBRL de données financières. Il décompose la tâche en deux étapes : FinNI (extraction d'entités numériques) et FinCL (mapping vers la taxonomie US GAAP complète). Les tests montrent que les modèles extraient bien mais échouent sur le linking fin vers les 10k+ concepts.

BenchmarksRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

LightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

LlamaMistralQwen
SIG
78
HYP
25
arXiv cs.CL·

AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning

AdaSwitch propose un paradigme collaboratif cloud-local où un agent local (petit LLM) traite les tâches simples et demande assistance à un agent cloud (grand LLM) pour le raisonnement complexe. Le mécanisme adaptatif détecte les erreurs locales et bascule dynamiquement. Évaluation sur 7 benchmarks (raisonnement mathématique, QA complexe) montre amélioration de performance avec réduction des coûts computationnels.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée testant 10 catégories de tâches sur OmniGibson. Les expériences montrent que l'exploration active surpasse les approches passives, mais les modèles échouent principalement par « action blindness » : mauvais choix d'action → mauvaises observations → erreurs en cascade. Les modèles manquent de métacognition contrairement aux humains.

BenchmarksVisionRaisonnement
SIG
72
HYP
25
arXiv cs.CL·

GIM: Evaluating models via tasks that integrate multiple cognitive domains

GIM est un benchmark de 820 problèmes originaux évaluant les LLM via l'intégration de multiples domaines cognitifs (satisfaction de contraintes, suivi d'état, vigilance épistémique) plutôt que la mémorisation ou le raisonnement abstrait pur. Calibrage IRT sur >200k paires prompt-réponse, 28 modèles, étude extensive du trade-off compute vs capacité sur 11 modèles et 35 configurations.

BenchmarksÉvaluationsRaisonnement
SIG
82
HYP
15
arXiv cs.CL·

Answer Only as Precisely as Justified: Calibrated Claim-Level Specificity Control for Agentic Systems

Méthode de contrôle de spécificité au niveau des affirmations pour systèmes agentiques. CSS décompose les réponses en claims, propose des reformulations moins précises, et émet chaque claim au niveau de spécificité calibré admissible. Sur LongFact, améliore l'utilité de 0.846 à 0.913 tout en conservant 0.938 de spécificité.

Agents IARaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

The Loupe: A Plug-and-Play Attention Module for Amplifying Discriminative Features in Vision Transformers

The Loupe est un module de gating spatial léger pour Vision Transformers hiérarchiques, conçu pour la classification visuelle fine-grained. Inséré à un stade intermédiaire, il prédit un masque spatial monocanal via un petit CNN et repondère les activations. Sur CUB-200-2011, il améliore Swin-Base de 88,36% à 91,72% et Swin-Tiny de 85,14% à 88,61% avec <0,1% de paramètres supplémentaires.

VisionBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

PROF, une méthode de sélection de données, combine les récompenses de processus (PRM) et de résultat (ORM) pour améliorer l'apprentissage par renforcement sur les tâches de raisonnement. Elle filtre les exemples d'entraînement en gardant les réponses correctes avec bon support processus et les réponses incorrectes avec faible support, évitant l'instabilité de l'optimisation directe des PRM.

Reinforcement learningRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

The threat of analytic flexibility in using large language models to simulate human data

Étude arXiv montrant que les choix analytiques (sélection de modèle, paramètres, format de prompt, données démographiques) affectent significativement la fidélité des « silicon samples » (données synthétiques générées par LLM). Sur 252 configurations testées, les corrélations avec les données humaines varient de r=.23 à r=.84, révélant un risque majeur de flexibilité analytique.

LlamaÉvaluationsSécurité IA
SIG
75
HYP
25
arXiv cs.AI·

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Nouvelle métrique appelée Refusal Index (RI) pour mesurer la capacité des LLM à refuser les questions hors de leur connaissance. RI corrèle la probabilité de refus avec la probabilité d'erreur via la corrélation de Spearman. Tests sur 16 modèles et 5 datasets montrent que le comportement de refus des LLM reste fragile malgré une haute précision factuelle.

ÉvaluationsSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.LG·

Lost or Hidden? A Concept-Level Forgetting in Supervised Continual Learning

Étude diagnostique du catastrophic forgetting en continual learning via Sparse Autoencoders. Framework analyse comment l'information spécifique aux tâches évolue au niveau des concepts latents. Résultat : majorité de l'oubli apparent est récupérable sous hypothèse de linéarité ; dégradation due à l'accessibilité représentationnelle plutôt qu'à l'effacement complet.

PapersRaisonnementVision
SIG
72
HYP
15
arXiv cs.AI·

SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning

SSL4RL utilise des tâches d'apprentissage auto-supervisé (rotation d'images, reconstruction de patches masqués) comme signaux de récompense pour l'entraînement par renforcement de modèles vision-langage. Le framework élimine le besoin de données de préférence humaine et améliore les performances sur des benchmarks de raisonnement vision-centric et vision-langage.

VisionReinforcement learningRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Unlocking the Potential of Diffusion Language Models through Template Infilling

Template Infilling (TI) est une méthode de conditioning pour les Diffusion Language Models qui aligne des ancres structurelles sur l'ensemble de l'espace de réponse cible, remplaçant le prefix prompting. Évaluée sur raisonnement mathématique, génération de code et planification, TI améliore les performances de 9,40% et accélère la génération multi-token.

Génération de codeRaisonnementBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (biais vers l'accord avec l'utilisateur) dans 12 modèles SOTA. Les auteurs décomposent ce biais en sous-composantes linguistiques et affectives, et proposent des interventions au niveau du prompt et de l'activation pour le moduler. La sycophantie émerge d'un compromis structurel entre véracité et soumission polie.

AlignementSécurité IAÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

LiRA, un framework de fine-tuning léger, améliore l'adaptation multilingue des LLM pour les langues peu dotées. Il combine Arca (alignement basé sur des ancres vers l'anglais) et LaSR (tête sémantique consciente de la langue) pour stabiliser les représentations et la cohérence cross-linguale. Résultats positifs sur retrieval, ranking, QA et reasoning. Dataset multilingue (7 langues asiatiques) et code en open-source.

Fine-tuningRAGEmbeddings
SIG
75
HYP
20
arXiv cs.AI·

PyHealth 2.0: A Comprehensive Open-Source Toolkit for Accessible and Reproducible Clinical Deep Learning

PyHealth 2.0 est un toolkit open-source de deep learning clinique réduisant les barrières à la recherche en IA médicale. Il unifie 15+ datasets, 20+ tâches cliniques, 25+ modèles et 5+ méthodes d'interprétabilité dans un framework unique supportant signaux, imagerie et dossiers électroniques. Offre 39x accélération et 20x réduction mémoire, avec communauté de 400+ contributeurs.

Open sourceGénération de codeÉvaluations
SIG
78
HYP
25
arXiv cs.CL·

Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks

OverEager-Gen est un benchmark mesurant les actions hors-scope des agents de code autonomes sur tâches bénignes. Sur Claude Code, retirer la déclaration de consentement élève le taux d'actions overeager de 0% à 17,1% (p=2,4×10⁻⁴). Benchmark de 500 scénarios validés testant 4 produits (Claude Code, OpenHands, Codex CLI, Gemini CLI) : taux 5,4-27,7% en mode permissif vs 0,2-4,5% en ask-to-continue.

Agents IAGénération de codeSécurité IA
SIG
78
HYP
15
arXiv cs.LG·

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba propose une architecture basée sur Mamba pour prédire des séries temporelles cliniques irrégulières. Le modèle estime la fiabilité des observations selon leur manque et délai écoulé, intègre informations court/long terme via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, gains AUPRC de 7,51%, 7,80% et 10,15% respectivement.

BenchmarksRaisonnementPapers
SIG
78
HYP
15
arXiv cs.LG·

A Theory of Training Profit-Optimal LLMs

Modèle économique combinant lois de scaling et théorie microéconomique pour caractériser l'optimisation des profits dans l'entraînement des LLM. Analyse comment la taille du modèle, le budget en tokens et les coûts computationnels interagissent. En régime compute-bound, la dépense optimale suit l'efficacité matérielle (FLOPs/$) quasi-linéairement. En régime data-bound, elle évolue en D²/E.

BenchmarksPapersBusiness
SIG
75
HYP
15
arXiv cs.AI·

Two-Dimensional Quantization for Geometry-Aware Audio Coding

Q2D2 (Two-Dimensional Quantization) est un nouveau schéma de quantization pour les codecs audio neuraux. Il projette les paires de features sur des grilles 2D structurées (hexagonales, rhombiques, rectangulaires) pour améliorer l'efficacité de compression, le taux de tokens et l'utilisation du codebook, tout en maintenant la qualité de reconstruction état de l'art sur la parole, l'audio et la musique.

Génération de codePapersBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

BlendedNet++: A dataset and benchmark for field-resolved aerodynamics and inverse design of blended wing body aircraft

BlendedNet++ est un dataset de 12 492 géométries d'avions Blended Wing Body (BWB) avec simulations RANS pour prédire les champs aérodynamiques. Les auteurs benchmarkent 5 architectures de deep learning (Transolver meilleur) et proposent un pipeline de conception inverse générative utilisant des modèles de diffusion conditionnels, validé par CFD avec R² > 0,99.

BenchmarksPapersGénération de code
SIG
82
HYP
18
arXiv cs.CL·

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

CodeBind propose un framework d'alignement multimodal via codebook compositif partagé-spécifique. La méthode décompose les représentations en composantes sémantiques partagées et spécifiques à chaque modalité, validée sur 9 modalités (texte, image, vidéo, audio, profondeur, thermique, tactile, nuage de points 3D, EEG) avec SOTA en classification et retrieval.

EmbeddingsVisionRobotique
SIG
72
HYP
25
arXiv cs.CL·

Scalable Environments Drive Generalizable Agents

Position paper argumentant que la généralisation des agents IA nécessite l'expansion de la distribution des environnements (rule-sets exécutables), au-delà du scaling de trajectoires ou de tâches. Propose une taxonomie unifiant trajectory scaling, task scaling et environment scaling, et synthétise paradigmes de construction (générateurs programmatiques vs world models génératifs) pour des environnements scalables.

Agents IARaisonnementBenchmarks
SIG
45
HYP
25
arXiv cs.AI·

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Analyse théorique complète de la dynamique des gradients dans les têtes d'attention des transformers sous entraînement cross-entropy. Les auteurs établissent une loi de routage basée sur l'avantage et une mise à jour pondérée par responsabilité, montrant que l'optimisation crée des variétés bayésiennes qui implémentent le raisonnement probabiliste en contexte.

RaisonnementPapersBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

Une étude arXiv révèle que les modèles Mixture of Experts ne spécialisent pas réellement les experts par domaine comme supposé. Le framework COMMITTEEAUDIT identifie un « Standing Committee » — un groupe compact d'experts qui capture la majorité du routage indépendamment du domaine. Les experts périphériques gèrent seuls la connaissance spécifique au domaine.

BenchmarksPapers
SIG
75
HYP
15
arXiv cs.AI·

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

VideoDR est le premier benchmark pour le video question answering en domaine ouvert, combinant extraction visuelle multi-frames, récupération web itérative et raisonnement multi-hop. L'évaluation de modèles multimodaux (closed/open-source) montre que le paradigme Agentic n'est pas systématiquement supérieur au Workflow; les défis clés sont la dérive d'objectif et la cohérence long-horizon.

Agents IAVisionRaisonnement
SIG
72
HYP
28