mai 2026

3149 articles

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

FinTagging est un benchmark pour évaluer les LLMs sur l'extraction et le tagging XBRL de données financières. Il décompose la tâche en deux étapes : FinNI (extraction d'entités numériques) et FinCL (mapping vers la taxonomie US GAAP complète). Les tests révèlent que les modèles extraient bien mais échouent sur le linking conceptuel fin.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

SIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.

Génération d'images Génération de vidéos Reinforcement learning

SIG

HYP

arXiv cs.CL·19 mai

An Assessment of Human vs. Model Uncertainty in Soft-Label Learning and Calibration

Étude contrôlée comparant les étiquettes souples humaines vs synthétiques sur MNIST. Les étiquettes humaines améliorent la calibration du modèle et l'alignement avec l'incertitude humaine, au-delà de la simple correction d'erreurs d'annotation. Révèle que la valeur principale réside dans la régularisation et la convergence stable.

Évaluations Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·19 mai

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant masque sélectivement les actions légales de la victime. Expériences sur poker (6 à 5 531 états) et deux domaines non-poker : le masquage appris cause plus de dégâts que le masquage aléatoire, persiste sur Q-learning/PPO/NFSP/DQN, transfère entre agents et s'amplifie en auto-jeu.

Reinforcement learning Sécurité IA Benchmarks

SIG

HYP

arXiv cs.LG·19 mai

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de crédit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.LG·19 mai

Mirror Descent-Type Algorithms for the Variational Inequality Problem with Functional Constraints

Algorithmes de descente miroir pour résoudre des inégalités variationnelles avec contraintes fonctionnelles. Les auteurs proposent des variantes qui alternent entre étapes productives et non-productives selon les valeurs des contraintes, avec analyse de convergence optimale pour opérateurs monotones bornés et contraintes convexes Lipschitz. Applications à GANs, RL et entraînement adversarial.

Reinforcement learning Papers Alignement

SIG

HYP

arXiv cs.AI·19 mai

Resource-Element Energy Difference for Noncoherent Over-the-Air Federated Learning

Nouvelle primitive physique REED pour l'agrégation fédérée sans fil non-cohérente. Mappe les parties positives/négatives des mises à jour modèles sur des énergies transmises appairées, éliminant le besoin de synchronisation et d'information d'état de canal instantanée. Dérive expressions exactes de variance pour canaux Rayleigh.

Infrastructure Papers

SIG

HYP

arXiv cs.AI·19 mai

RAG-based EEG-to-Text Translation Using Deep Learning and LLMs

Pipeline RAG pour décoder du texte à partir de signaux EEG en utilisant un encodeur EEG aligné sur des embeddings sémantiques, une étape de récupération vectorielle et un LLM. Sur le dataset ZuCo, la méthode surpasse la baseline aléatoire avec une similarité cosinus de 0.181±0.022 vs 0.139±0.029 (amélioration de 30.45%), sans teacher forcing à l'inférence.

RAG Embeddings Recherche vectorielle

SIG

HYP

arXiv cs.AI·19 mai

The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure

Étude sur les systèmes multi-agents : des attaques par « détournement sémantique » exploitent la confiance des agents. Paradoxe identifié : augmenter la capacité des Workers élève le taux de succès d'attaque de 18,4% à 63,9%. L'analyse de médiation révèle que la « certitude linguistique » des agents forts les rend vulnérables. Solution proposée : vérification par ensemble hétérogène réduisant le taux d'attaque à 2%.

Multi-agents Agents IA Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

KIT-TIP-NLP at MultiPride: Continual Learning with Multilingual Foundation Model

Framework multi-étapes pour détecter les insultes réappropriées en discours multilingue (anglais, espagnol, italien). Utilise XLM-RoBERTa avec augmentation de données par back-translation GPT-4o-mini (×3 corpus), undersampling dynamique et ajustement de seuils par langue. Amélioration F1 de 2-5% sans réentraînement.

Fine-tuning RAG Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

TABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

Training-Free Cultural Alignment of Large Language Models via Persona Disagreement

DISCA, une méthode d'inférence sans entraînement, aligne culturellement les LLM via désaccord socio-démographique intra-pays. Testée sur 20 pays et 7 backbones (2B–70B), elle réduit le désalignement culturel de 10–24% sur MultiTP sans modifier les poids du modèle.

Alignement Sécurité IA Papers

SIG

HYP

arXiv cs.CL·19 mai

Beyond LoRA vs. Full Fine-Tuning: Gradient-Guided Optimizer Routing for LLM Adaptation

Nouvelle méthode MoLF (Mixture of LoRA and Full) qui combine fine-tuning complet et LoRA via routage dynamique au niveau optimiseur. Testée sur Gemma-3-1B, Qwen2.5-1.5B/3B sur SQL, Medical QA, Counterfactual Knowledge. MoLF-Efficient surpasse les approches LoRA adaptatives de 20% (Fact) et 9% (Med/SQL). Code open-source disponible.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

The Frequency Confound in Language-Model Surprisal and Metaphor Novelty

Une étude arXiv analyse la relation entre surprisal (imprévisibilité) des modèles de langage et la nouveauté métaphorique. Sur 8 tailles de Pythia et 154 checkpoints, la fréquence lexicale prédit mieux la nouveauté métaphorique que le surprisal. L'association surprisal-nouveauté culmine en phase d'entraînement précoce puis décline, miroir de l'association surprisal-fréquence.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

ClawGym: A Scalable Framework for Building Effective Claw Agents

ClawGym est un framework pour développer des agents capables d'exécuter des workflows multi-étapes sur fichiers locaux et outils persistants. Les auteurs construisent ClawGym-SynData (13.5K tâches synthétisées), entraînent ClawGym-Agents via fine-tuning supervisé et RL, et proposent ClawGym-Bench (200 instances) pour l'évaluation.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

From Chatbots to Confidants: A Cross-Cultural Study of LLM Adoption for Emotional Support

Étude cross-culturelle sur 4,641 participants dans 7 pays montrant que l'adoption des LLM pour le soutien émotionnel varie de 20% à 59%. Les utilisateurs âgés de 25-44 ans, religieux, mariés et de statut socioéconomique élevé rapportent plus de confiance. Les demandes portent sur la solitude, le stress, les conflits relationnels et la santé mentale. Corpus de 731 prompts multilingues collectés.

Sécurité IA Alignement Régulation

SIG

HYP

arXiv cs.CL·19 mai

Fine-tuning vs. In-context Learning in Large Language Models: A Formal Language Learning Perspective

Étude comparative fine-tuning vs. in-context learning sur LLMs via tâches de langages formels. Fine-tuning surpasse ICL en généralisation in-distribution, mais les deux modes égalisent hors-distribution. Les biais inductifs divergent aux niveaux de maîtrise élevés. ICL montre sensibilité au vocabulaire et à la taille du modèle.

Fine-tuning Prompt engineering Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

STEM: Structure-Tracing Evidence Mining for Knowledge Graphs-Driven Retrieval-Augmented Generation

STEM propose un framework pour le Knowledge Graph-based Question Answering (KGQA) qui reframe le raisonnement multi-hop comme une tâche de recherche de graphe guidée par schéma. Utilise une pipeline Semantic-to-Structural Projection et un Triple-Dependent GNN pour générer un Global Guidance Subgraph. Atteint SOTA sur plusieurs benchmarks multi-hop.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation

NaviRAG propose un framework RAG qui remplace la récupération passive par une navigation active du savoir. Le système structure les documents en hiérarchie sémantique et utilise un agent LLM pour naviguer itérativement, identifiant les lacunes informationnelles et récupérant du contenu au niveau de granularité approprié. Résultats : amélioration de la récupération et de la performance QA sur documents longs.

RAG Agents IA Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

Étude comparative de l'interprétabilité des architectures Mixture-of-Experts (MoE) vs réseaux denses. Les experts MoE montrent moins de polysémantique neuronale que les FFN denses, particulièrement avec routage sparse. Les experts fonctionnent comme spécialistes de tâches linguistiques fines (ex: fermeture de crochets LaTeX), pas comme spécialistes de domaines larges. Code disponible.

SIG

HYP

arXiv cs.CL·19 mai

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Chercheurs localisent des « cellules d'entité » dans les neurones MLP de modèles de langage (Qwen2.5-7B, etc.). Ces neurones activés de façon sélective encodent des faits spécifiques à une entité. Suppression d'une cellule efface le rappel pour cette entité seule ; activation suffit à récupérer la connaissance même sans contexte. Les cellules restent stables sous alias, acronymes et formes multilingues.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch

Nouvelle méthode DSKD-CMA-GA pour la distillation de connaissance entre LLMs avec vocabulaires différents. Utilise l'apprentissage adversarial pour aligner les distributions clé-requête. Gains ROUGE-L modestes mais constants (+0.37 en moyenne sur données hors-distribution).

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

PCFJudge, une méthode d'inférence, évalue la factualité en relançant un prompt listwise sur plusieurs ordres de candidats et agrège les scores. Sur RewardBench 2 Factuality, avec K=7 permutations, la précision passe de 86% à 91,33% (GPT-5.4) et 86,33% à 89,67% (Claude Sonnet 4.6).

Évaluations GPT Claude

SIG

HYP

arXiv cs.CL·19 mai

Locally Coherent Parallel Decoding in Diffusion Language Models

CoDiLA combine diffusion et autorégressif local pour générer du code en parallèle. Un petit modèle AR auxiliaire (0.6B params) assure la cohérence syntaxique sur les latents diffusion, éliminant les artefacts tout en maintenant la génération bidirectionnelle et sub-linéaire.

Génération de code Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Orthologic for SAT Solving

Nouvel algorithme pour la décidabilité en orthologic (approximation de la logique classique) sans phase de prétraitement coûteuse, complexité O(n²(1+|A|)). Benchmarks SAT synthétiques basés sur encodage Tseitin : instances difficiles pour solveurs SOTA mais résolues efficacement par orthologic. Normalisation orthologic améliore temps de résolution sur problèmes durs.

Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

CounterRefine ajoute une couche légère de correction pour RAG : après une première réponse, le système émet des requêtes conditionnées par la réponse pour récupérer des contre-preuves, puis applique une étape KEEP/REVISE validée déterministiquement. Sur SimpleQA, amélioration de 5,8 points de taux correct ; 5,6% des sorties modifiées avec 180 changements bénéfiques vs 8 nuisibles.

RAG Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

SPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800, en utilisant une formulation de récompense contrainte par KL et une pipeline de correction d'erreurs minimales.

Reinforcement learning Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·19 mai

Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models

Les LLM présentent des représentations internes hautement anisotropes avec des activations massives. Au lieu de les traiter comme des artefacts, les auteurs les identifient comme des unités fonctionnelles interprétables via un critère basé sur la magnitude. Le steering appliqué à ces dimensions critiques surpasse le steering conventionnel en adaptation de domaine et jailbreaking.

Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

AI Alignment Breaks at the Edge

Étude arXiv montrant que l'alignement IA échoue sur les cas limites : conflits de valeurs, désaccords multi-parties, ambiguïté épistémique. Les récompenses scalaires et évaluations moyennes masquent ces défaillances. Les auteurs proposent « Edge alignment » : détection, évaluation et gouvernance pour surfacer ces cas critiques. Test sur 91 cas limites et 4 modèles contemporains.

Alignement Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

STING est un framework de red-teaming automatisé qui évalue la vulnérabilité des agents LLM aux scénarios d'abus multi-tours. Il construit des plans illicites étape par étape avec personas bienveillantes et utilise des agents juges pour suivre la progression. Tests sur 6 langues non-anglaises montrent que le succès d'attaque ne croît pas systématiquement dans les langues à faibles ressources.

Agents IA Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Finding Sense in Nonsense with Generated Contexts: Perspectives from Humans and Language Models

Étude comparative sur la capacité des humains et des LLM à distinguer les phrases anomales des phrases véritablement non-sensiques. Analyse de cinq datasets sémantiquement déviants avec et sans contexte. Résultat : la plupart des phrases jugées anomales peuvent être interprétées avec contexte ; les LLM génèrent efficacement des contextes plausibles.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·19 mai

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Étude expérimentale testant la critique de Chomsky sur les LLM : GPT-2 small et LSTM entraînés sur des langues syntaxiquement impossibles (phrases inversées, négations basées sur la parité). GPT-2 montre perplexité plus basse sur langage naturel (ratio de perte jusqu'à 2,25× sur conditions inversées), LSTM minimal. Les auteurs proposent un paradigme fonctionnaliste contre la perspective rationaliste de Chomsky.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Fix the Structural Bottleneck: Context Compression via Explicit Information Transmission

ComprExIT, un nouveau framework de compression de contexte, résout les goulots d'étranglement structurels des compresseurs LLM existants via transmission explicite d'information. Sur 12 datasets, il améliore le F1 moyen de 18,5%, ajoute ~1% de paramètres entraînables et accélère la compression de 2x.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning

PEGRL est un framework RL deux étapes pour la traduction automatique par LLM. Il utilise la post-édition comme tâche auxiliaire pour stabiliser l'entraînement et guider l'optimisation. Tests sur EN→FI, EN→TR, EN↔ZH montrent des gains constants; EN→TR atteint des performances comparables à DeepSeek-V3.2 sur COMET-KIWI.

Reinforcement learning Génération de code Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Embodied Task Planning via Graph-Informed Action Generation with Large Language Models

GiG, un framework de planification pour agents incarnés, utilise une architecture Graph-in-Graph avec GNN pour encoder les états environnementaux et structurer la mémoire d'expérience. Un module de lookahead borné améliore la planification via logique symbolique. Évalué sur Robotouille et ALFWorld, GiG surpasse les baselines avec +22% à +37% de gains Pass@1.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework

COMPACT, un framework de distillation CoT multi-enseignants, fusionne adaptativement les supervisions de plusieurs LLMs vers des modèles compacts. Il pondère dynamiquement les gradients des enseignants via trois métriques : consensus basé graphe, adaptabilité par information mutuelle, et difficulté basée perte. Résultats SOTA sur plusieurs benchmarks sans oubli catastrophique.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.CL·19 mai

Double-Calibration: Towards Reliable LLMs via Calibrating Knowledge and Reasoning Confidence

DoublyCal, un framework de double-calibration, améliore la fiabilité des LLM en quantifiant l'incertitude épistémique dans les preuves récupérées et le raisonnement. Un modèle proxy léger génère des preuves de Knowledge Graph avec confiance calibrée, guidant un LLM black-box vers des prédictions plus précises et bien-calibrées.

Raisonnement RAG Évaluations

SIG

HYP

arXiv cs.CL·19 mai

ADMEDTAGGER: an annotation framework for distillation of expert knowledge for the Polish medical language

Framework d'annotation pour distiller les connaissances expertes d'un LLM multilingue (Llama3.1) afin d'entraîner des classifieurs BERT pour le tagging médical en polonais. DistilBERT atteint F1 > 0.80 sur 5 catégories cliniques (Radiologie, Oncologie, Cardiologie, Hypertension, Pathologie) avec 500× moins de paramètres et 300× moins de VRAM qu'un LLM.

Llama Fine-tuning Génération de code

SIG

HYP

arXiv cs.CL·19 mai

Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation

Étude évaluant 8 modèles multimodaux (Gemini-2.5-Pro, o3, etc.) sur leur robustesse face aux biais cognitifs dans des vidéos courtes chinoises contenant de la désinformation. Dataset de 200 vidéos annotées manuellement couvrant 4 domaines sanitaires. Gemini-2.5-Pro obtient 71.5/100, o3 35.2. Les modèles sont vulnérables aux indices sociaux comme les IDs de chaînes autoritaires.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Rethinking Table Pruning in TableQA: From Sequential Revisions to Gold Trajectory-Supervised Parallel Search

TabTrim, un nouveau cadre de pruning de tables pour TableQA, remplace les révisions séquentielles par une recherche parallèle supervisée par trajectoires or. Le système utilise les sous-tables intermédiaires des requêtes SQL or pour entraîner un pruner et un vérificateur. TabTrim-8B atteint 73,5% de précision moyenne, surpassant les baselines de 3,2% (79,4% sur WikiTQ, 61,2% sur TableBench).

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

QuCo-RAG propose une méthode de RAG dynamique basée sur des statistiques du corpus de pré-entraînement plutôt que sur les signaux internes des modèles. Elle identifie les entités basse-fréquence et vérifie leur co-occurrence dans 4 trillions de tokens via Infini-gram. Sur benchmarks QA multi-hop, elle gagne 5-12 points EM vs baselines avec OLMo-2, et jusqu'à 14 points sur Llama-3, Qwen2.5, GPT-4.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

ShareChat: A Dataset of Chatbot Conversations in the Wild

ShareChat est un corpus de 142 808 conversations (660 293 tours) collectées sur ChatGPT, Perplexity, Grok, Gemini et Claude entre avril 2023 et octobre 2025. Le dataset préserve les affordances natives (citations, traces de raisonnement, artefacts code) sur 95 langues et permet d'analyser les différences cross-platform en satisfaction d'intent, stratégies de citation et latence.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·19 mai

GraphMind: Theorem Selection and Conclusion Generation Framework with Dynamic GNN for LLM Reasoning

GraphMind combine GNN et LLM pour le raisonnement multi-étapes en mathématiques. Le framework modélise le processus de raisonnement comme un graphe hétérogène évolutif où nœuds (conditions, théorèmes, conclusions) et arêtes (dépendances logiques) permettent la sélection dynamique de théorèmes et la génération itérative de conclusions. Résultats améliorés sur benchmarks QA.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations

TAQ (Task-Aware Quantization) est une méthode de quantification post-entraînement sans entraînement qui alloue dynamiquement la précision aux couches pertinentes pour une tâche donnée, utilisant des prompts de calibration non étiquetés. Trois variantes (TAQ-IS, TAQ-KL, TAQ-O) estiment l'importance des couches via les représentations cachées. Gains significatifs en ratio précision-mémoire validés sur matériel réel.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

LISTEN to Your Preferences: An LLM Framework for Multi-Objective Selection

LISTEN est un framework agentic basé LLM pour sélectionner parmi plusieurs options avec objectifs conflictuels. Deux algorithmes itératifs : LISTEN-U affine une fonction d'utilité paramétrique, LISTEN-T utilise des tournois sur petits lots. Évalué sur réservations de vols, shopping, planification d'examens. Code disponible.

Agents IA Prompt engineering Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Tongyi DeepResearch Technical Report

Tongyi DeepResearch est un modèle LLM agentique de 30,5 milliards de paramètres (3,3 milliards activés par token) conçu pour les tâches de recherche longue durée. Entraîné via mid-training et post-training agentiques avec synthèse de données automatique, il atteint l'état de l'art sur 7 benchmarks incluant Humanity's Last Exam et BrowseComp. Le modèle et framework sont open-sourcés.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (tendance des LLM à privilégier l'accord avec l'utilisateur plutôt que l'exactitude) dans 12 modèles SOTA. Les auteurs identifient des sous-biais linguistiques et affectifs qui augmentent avec la capacité du modèle, et proposent des interventions au niveau du prompt et de l'activation pour les moduler.

Alignement Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·19 mai

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (extraction de principes stratégiques des trajectoires) et l'interaction en ligne (récupération de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop, il surpasse les baselines existantes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

History-Echoes analyse comment l'historique conversationnel biaise les réponses futures des LLM. Via modélisation Markovienne et analyse géométrique des représentations cachées, l'étude révèle que la persistance comportementale crée un « piège géométrique » dans l'espace latent, testée sur 3 familles de modèles et 6 datasets.

Papers Raisonnement Alignement

SIG

HYP

arXiv cs.CL·19 mai

Unlocking the Potential of Diffusion Language Models through Template Infilling

Template Infilling (TI) est une méthode de conditioning pour les Diffusion Language Models qui aligne des ancres structurelles sur l'ensemble de l'espace de réponse, remplaçant le prefix prompting. Évaluée sur raisonnement mathématique, génération de code et planification, TI améliore les performances de 9,40% et accélère la génération multi-token.

Prompt engineering Génération de code Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Evaluating Language Models' Evaluations of Games

Étude arXiv évaluant comment les modèles de langage et de raisonnement jugent les jeux de plateau. Sur 100+ jeux et 450 jugements humains, les modèles de raisonnement s'alignent mieux aux humains que les LLM classiques pour évaluer l'équité et le plaisir des jeux. Paradoxe : plus les modèles approchent l'optimalité théorique des jeux, moins ils correspondent aux préférences humaines.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Étude arXiv évaluant la cohérence du codage de données de communication par ChatGPT selon les groupes démographiques (genre, race). Les auteurs adaptent un cadre d'évaluation automatisée et testent ChatGPT sur trois types de tâches collaboratives. Résultat : le codage ChatGPT montre une cohérence comparable aux annotateurs humains entre groupes.

GPT Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models

Guided Topology Diffusion (GTD) utilise des modèles de diffusion de graphes pour générer dynamiquement les topologies de communication optimales dans les systèmes multi-agents LLM. Le framework itératif, guidé par un modèle proxy prédisant récompenses multi-objectifs (précision, utilité, coût), adapte les topologies aux tâches sans optimisation par gradient, surpassant les approches statiques.

Multi-agents Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Chercheurs proposent l'Indice de Refus (RI), métrique mesurant la capacité des LLM à refuser les questions hors de leurs connaissances. RI corrèle la probabilité de refus avec la probabilité d'erreur via Spearman. Tests sur 16 modèles et 5 datasets montrent que les LLM refusent de façon instable malgré une haute précision factuelle.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·19 mai

We Think, Therefore We Align LLMs to Helpful, Harmless and Honest Before They Go Wrong

AMBS (Adaptive Multi-Branch Steering) aligne les LLM sur trois objectifs simultanés (Helpfulness, Harmlessness, Honesty) via un framework 1-to-N Transformer. Une représentation partagée est répliquée en N chemins objectif-spécifiques avec transformations contraintes. Résultats : 56.5% WR moyen sur LLaMA-2-7B, 189 Tok/s.

Alignement Sécurité IA Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

When TableQA Meets Noise: A Dual Denoising Framework for Complex Questions and Large-scale Tables

EnoTab est un framework de débruitage dual pour le TableQA (question-answering sur tables). Il décompose les questions complexes en unités sémantiques minimales et élagage les tables volumineuses via un arbre de preuves explicite, avec mécanisme de rollback pour gérer les états anormaux. Résultats probants sur questions complexes et tables à grande échelle.

Raisonnement RAG Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Early Stopping Chain-of-thoughts in Large Language Models

ES-CoT détecte la convergence des réponses lors de la génération de chaînes de pensée (CoT) pour arrêter précocement l'inférence. La méthode réduit les tokens d'inférence de 16,08% en moyenne sur six benchmarks de raisonnement sans perte de précision significative.

Raisonnement Prompt engineering Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Rethinking 1-bit Optimization Leveraging Pre-trained Large Language Models

Nouvelle méthode de quantification 1-bit pour LLM exploitant les modèles pré-entraînés. Utilise un entraînement progressif cohérent (forward/backward) avec initialisation binary-aware et compensation dual-scaling pour convertir les poids en représentation binarisée. Réduit coûts d'entraînement et dégradation de précision comparé aux approches existantes.

Fine-tuning Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·19 mai

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

Nouvelle stratégie de sélection de données pour l'alignement LLM basée sur l'écart de récompense implicite DPO. En ciblant les exemples de préférence les plus difficiles (petit écart), la méthode atteint des performances supérieures avec seulement 10% des données originales sur plusieurs benchmarks.

Reinforcement learning Alignement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

LaPA$^2$: Length-Aware Prefix and Prompt Attention Augmentation for Long-Form Controllable Text Generation

LaPA² résout la dilution d'attention dans la génération de texte contrôlée long-forme. La méthode applique un scaling logarithmique conscient de la longueur pour amplifier les poids d'attention des préfixes, contrant l'affaiblissement naturel du signal de contrôle. Framework sans entraînement, compatible avec préfixes souples et durs.

Prompt engineering Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Geometry-aware 4D Video Generation for Robot Manipulation

Modèle de génération vidéo 4D pour la manipulation robotique qui enforce la cohérence multi-vue 3D via supervision par alignement de pointmap cross-view. Génère des séquences vidéo spatio-temporellement alignées à partir d'une seule image RGB-D par vue, sans poser en entrée. Démontre stabilité visuelle supérieure et récupération de trajectoires d'effecteur robot sur datasets simulés et réels.

Robotique Génération de vidéos Vision

SIG

HYP

arXiv cs.CL·19 mai

Factual Inconsistencies in Multilingual Wikipedia Tables

Étude des incohérences factuelles dans les tableaux Wikipedia multilingues. Les chercheurs ont développé une méthodologie pour collecter et analyser les tables de 300+ versions linguistiques de Wikipedia, identifiant des catégories d'inconsistance. Implications pour la vérification factuelle et la fiabilité des systèmes IA entraînés sur Wikipedia.

Benchmarks Évaluations RAG

SIG

HYP

arXiv cs.CL·19 mai

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

FinTagging est un benchmark pour évaluer les LLM sur l'extraction et le tagging XBRL de données financières. Il décompose la tâche en deux étapes : FinNI (extraction d'entités numériques) et FinCL (mapping vers la taxonomie US GAAP complète). Les tests montrent que les modèles extraient bien mais échouent sur le linking fin vers les 10k+ concepts.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Sustainability via LLM Right-sizing

Étude empirique comparant 11 LLMs (GPT-4o, Gemma-3, Phi-4, etc.) sur 10 tâches professionnelles courantes. GPT-4o surpasse mais coûte plus cher ; les petits modèles offrent un bon compromis coût/performance. Propose une évaluation centrée sur la suffisance contextuelle plutôt que la maximisation de performance.

Benchmarks Évaluations Open source

SIG

HYP

arXiv cs.CL·19 mai

Responsible Federated LLMs via Safety Filtering and Constitutional AI

Étude sur l'intégration de techniques de sécurité (filtrage et Constitutional AI) dans l'apprentissage fédéré de LLM. Les auteurs montrent que ces méthodes réduisent les réponses dangereuses de plus de 20% sur AdvBench, adressant le risque de déploiement massif de modèles non sécurisés.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.CL·19 mai

SEDD: Scalable and Efficient Dataset Deduplication with GPUs

SEDD est un framework GPU pour la déduplication de datasets utilisant MinHash LSH. Il surpasse l'outil CPU de SlimPajama de 158× et le GPU de NVIDIA NeMo Curator de 7.8× sur 30M documents. Génération de signatures MinHash 375× plus rapide. Déduplication de 1.2T tokens en 3h sur cluster 32-GPU V100.

Benchmarks Infrastructure Open source

SIG

HYP

arXiv cs.CL·19 mai

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

LightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

Llama Mistral Qwen

SIG

HYP

arXiv cs.CL·19 mai

AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning

AdaSwitch propose un paradigme collaboratif cloud-local où un agent local (petit LLM) traite les tâches simples et demande assistance à un agent cloud (grand LLM) pour le raisonnement complexe. Le mécanisme adaptatif détecte les erreurs locales et bascule dynamiquement. Évaluation sur 7 benchmarks (raisonnement mathématique, QA complexe) montre amélioration de performance avec réduction des coûts computationnels.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée testant 10 catégories de tâches sur OmniGibson. Les expériences montrent que l'exploration active surpasse les approches passives, mais les modèles échouent principalement par « action blindness » : mauvais choix d'action → mauvaises observations → erreurs en cascade. Les modèles manquent de métacognition contrairement aux humains.

Benchmarks Vision Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

GIM: Evaluating models via tasks that integrate multiple cognitive domains

GIM est un benchmark de 820 problèmes originaux évaluant les LLM via l'intégration de multiples domaines cognitifs (satisfaction de contraintes, suivi d'état, vigilance épistémique) plutôt que la mémorisation ou le raisonnement abstrait pur. Calibrage IRT sur >200k paires prompt-réponse, 28 modèles, étude extensive du trade-off compute vs capacité sur 11 modèles et 35 configurations.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Answer Only as Precisely as Justified: Calibrated Claim-Level Specificity Control for Agentic Systems

Méthode de contrôle de spécificité au niveau des affirmations pour systèmes agentiques. CSS décompose les réponses en claims, propose des reformulations moins précises, et émet chaque claim au niveau de spécificité calibré admissible. Sur LongFact, améliore l'utilité de 0.846 à 0.913 tout en conservant 0.938 de spécificité.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

The Loupe: A Plug-and-Play Attention Module for Amplifying Discriminative Features in Vision Transformers

The Loupe est un module de gating spatial léger pour Vision Transformers hiérarchiques, conçu pour la classification visuelle fine-grained. Inséré à un stade intermédiaire, il prédit un masque spatial monocanal via un petit CNN et repondère les activations. Sur CUB-200-2011, il améliore Swin-Base de 88,36% à 91,72% et Swin-Tiny de 85,14% à 88,61% avec <0,1% de paramètres supplémentaires.

Vision Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

PROF, une méthode de sélection de données, combine les récompenses de processus (PRM) et de résultat (ORM) pour améliorer l'apprentissage par renforcement sur les tâches de raisonnement. Elle filtre les exemples d'entraînement en gardant les réponses correctes avec bon support processus et les réponses incorrectes avec faible support, évitant l'instabilité de l'optimisation directe des PRM.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

The threat of analytic flexibility in using large language models to simulate human data

Étude arXiv montrant que les choix analytiques (sélection de modèle, paramètres, format de prompt, données démographiques) affectent significativement la fidélité des « silicon samples » (données synthétiques générées par LLM). Sur 252 configurations testées, les corrélations avec les données humaines varient de r=.23 à r=.84, révélant un risque majeur de flexibilité analytique.

Llama Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Nouvelle métrique appelée Refusal Index (RI) pour mesurer la capacité des LLM à refuser les questions hors de leur connaissance. RI corrèle la probabilité de refus avec la probabilité d'erreur via la corrélation de Spearman. Tests sur 16 modèles et 5 datasets montrent que le comportement de refus des LLM reste fragile malgré une haute précision factuelle.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·19 mai

Lost or Hidden? A Concept-Level Forgetting in Supervised Continual Learning

Étude diagnostique du catastrophic forgetting en continual learning via Sparse Autoencoders. Framework analyse comment l'information spécifique aux tâches évolue au niveau des concepts latents. Résultat : majorité de l'oubli apparent est récupérable sous hypothèse de linéarité ; dégradation due à l'accessibilité représentationnelle plutôt qu'à l'effacement complet.

Papers Raisonnement Vision

SIG

HYP

arXiv cs.CL·19 mai

General Preference Reinforcement Learning

Nouvelle méthode GPRL (General Preference Reinforcement Learning) qui remplace les reward models scalaires par un General Preference Model (GPM) utilisant k sous-espaces asymétriques. Teste sur Llama-3-8B-Instruct : 56,51% win rate AlpacaEval 2.0, surpasse SimPO et SPPO sur Arena-Hard, MT-Bench, WildBench en évitant l'exploitation d'un seul axe.

Reinforcement learning Llama Alignement

SIG

HYP

arXiv cs.CL·19 mai

Post-Trained MoE Can Skip Half Experts via Self-Distillation

ZEDA transforme des modèles MoE statiques post-entraînés en variantes dynamiques via auto-distillation. Sur Qwen3-30B-A3B et GLM-4.7-Flash, la méthode élimine 50% des FLOPs experts avec perte de précision mineure et atteint 1.20× d'accélération d'inférence.

Qwen Fine-tuning Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning

SSL4RL utilise des tâches d'apprentissage auto-supervisé (rotation d'images, reconstruction de patches masqués) comme signaux de récompense pour l'entraînement par renforcement de modèles vision-langage. Le framework élimine le besoin de données de préférence humaine et améliore les performances sur des benchmarks de raisonnement vision-centric et vision-langage.

Vision Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

DocReward: A Document Reward Model for Structuring and Stylizing

DocReward est un modèle de récompense évaluant la structure et le style des documents professionnels, indépendamment de la qualité textuelle. Entraîné sur DocPair (117K paires de documents, 32 domaines), il surpasse GPT-4 de 14,6 points et guide efficacement les agents via RL vers une meilleure professionnalité structurelle et stylistique.

Reinforcement learning Agents IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Unlocking the Potential of Diffusion Language Models through Template Infilling

Template Infilling (TI) est une méthode de conditioning pour les Diffusion Language Models qui aligne des ancres structurelles sur l'ensemble de l'espace de réponse cible, remplaçant le prefix prompting. Évaluée sur raisonnement mathématique, génération de code et planification, TI améliore les performances de 9,40% et accélère la génération multi-token.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (biais vers l'accord avec l'utilisateur) dans 12 modèles SOTA. Les auteurs décomposent ce biais en sous-composantes linguistiques et affectives, et proposent des interventions au niveau du prompt et de l'activation pour le moduler. La sycophantie émerge d'un compromis structurel entre véracité et soumission polie.

Alignement Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

LiRA, un framework de fine-tuning léger, améliore l'adaptation multilingue des LLM pour les langues peu dotées. Il combine Arca (alignement basé sur des ancres vers l'anglais) et LaSR (tête sémantique consciente de la langue) pour stabiliser les représentations et la cohérence cross-linguale. Résultats positifs sur retrieval, ranking, QA et reasoning. Dataset multilingue (7 langues asiatiques) et code en open-source.

Fine-tuning RAG Embeddings

SIG

HYP

arXiv cs.AI·19 mai

Needles in the Landscape: Semi-Supervised Pseudolabeling for Archaeological Site Discovery under Label Scarcity

Modèle de segmentation sémantique semi-supervisée pour prédire la localisation de sites archéologiques non découverts. Utilise le pseudolabeling dynamique et CRF-RNN pour gérer la rareté des labels positifs. Égale LAMAP sur données DEM, améliore les scores Dice sur imagerie satellite brute.

Vision Fine-tuning Évaluations

SIG

HYP

arXiv cs.AI·19 mai

PyHealth 2.0: A Comprehensive Open-Source Toolkit for Accessible and Reproducible Clinical Deep Learning

PyHealth 2.0 est un toolkit open-source de deep learning clinique réduisant les barrières à la recherche en IA médicale. Il unifie 15+ datasets, 20+ tâches cliniques, 25+ modèles et 5+ méthodes d'interprétabilité dans un framework unique supportant signaux, imagerie et dossiers électroniques. Offre 39x accélération et 20x réduction mémoire, avec communauté de 400+ contributeurs.

Open source Génération de code Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Spatially Aware Linear Transformer (SAL-T) for Particle Jet Tagging

SAL-T (Spatially Aware Linear Transformer) réduit la complexité quadratique des transformers pour le tagging de jets au LHC. L'architecture linéaire intègre un partitionnement spatial basé sur les caractéristiques cinématiques et des couches convolutives. Résultats comparables aux transformers full-attention avec latence et ressources réduites.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

SonarSweep: Fusing Sonar and Vision for Robust 3D Reconstruction via Plane Sweeping

SonarSweep fusionne sonar et vision pour la reconstruction 3D sous-marine via plane sweeping. Le framework deep learning end-to-end dépasse les approches mono-modales en adaptant l'algorithme plane sweep à la fusion cross-modale. Résultats en simulation et environnements réels, dataset public avec données stéréo-caméra et sonar synchronisées.

Vision Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks

OverEager-Gen est un benchmark mesurant les actions hors-scope des agents de code autonomes sur tâches bénignes. Sur Claude Code, retirer la déclaration de consentement élève le taux d'actions overeager de 0% à 17,1% (p=2,4×10⁻⁴). Benchmark de 500 scénarios validés testant 4 produits (Claude Code, OpenHands, Codex CLI, Gemini CLI) : taux 5,4-27,7% en mode permissif vs 0,2-4,5% en ask-to-continue.

Agents IA Génération de code Sécurité IA

SIG

HYP

arXiv cs.LG·19 mai

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba propose une architecture basée sur Mamba pour prédire des séries temporelles cliniques irrégulières. Le modèle estime la fiabilité des observations selon leur manque et délai écoulé, intègre informations court/long terme via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, gains AUPRC de 7,51%, 7,80% et 10,15% respectivement.

Benchmarks Raisonnement Papers

SIG

HYP

arXiv cs.LG·19 mai

A Theory of Training Profit-Optimal LLMs

Modèle économique combinant lois de scaling et théorie microéconomique pour caractériser l'optimisation des profits dans l'entraînement des LLM. Analyse comment la taille du modèle, le budget en tokens et les coûts computationnels interagissent. En régime compute-bound, la dépense optimale suit l'efficacité matérielle (FLOPs/$) quasi-linéairement. En régime data-bound, elle évolue en D²/E.

Benchmarks Papers Business

SIG

HYP

arXiv cs.AI·19 mai

Convergence of Multiagent Learning Systems for Traffic control

Étude théorique de la convergence d'algorithmes MARL pour le contrôle du trafic urbain. Les auteurs formalisent la stabilité des systèmes multi-agents utilisant Q-learning indépendant sur chaque feu tricolore, en étendant les preuves de convergence de l'itération de valeur asynchrone au cas multi-agent via approximation stochastique.

Multi-agents Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory

Evo-Memory est un benchmark pour évaluer l'évolution de la mémoire dans les agents LLM. Il structure les données en flux de tâches séquentiels et teste 10+ modules de mémoire sur 10 datasets. Les auteurs proposent ExpRAG pour la réutilisation d'expérience et ReMem, un pipeline action-think-memory pour l'amélioration continue.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.AI·19 mai

Two-Dimensional Quantization for Geometry-Aware Audio Coding

Q2D2 (Two-Dimensional Quantization) est un nouveau schéma de quantization pour les codecs audio neuraux. Il projette les paires de features sur des grilles 2D structurées (hexagonales, rhombiques, rectangulaires) pour améliorer l'efficacité de compression, le taux de tokens et l'utilisation du codebook, tout en maintenant la qualité de reconstruction état de l'art sur la parole, l'audio et la musique.

Génération de code Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

BlendedNet++: A dataset and benchmark for field-resolved aerodynamics and inverse design of blended wing body aircraft

BlendedNet++ est un dataset de 12 492 géométries d'avions Blended Wing Body (BWB) avec simulations RANS pour prédire les champs aérodynamiques. Les auteurs benchmarkent 5 architectures de deep learning (Transolver meilleur) et proposent un pipeline de conception inverse générative utilisant des modèles de diffusion conditionnels, validé par CFD avec R² > 0,99.

Benchmarks Papers Génération de code

SIG

HYP

arXiv cs.LG·19 mai

GPU-Accelerated Deep Learning for Heatwave Prediction and Urban Heat Risk Assessment

Framework deep learning GPU pour prédiction thermique urbaine et évaluation des risques de canicule. ConvLSTM avec loss mixte sur données MODIS et Open-Meteo (Sarajevo) : MAE=0.2293, RMSE=0.3089, R²=0.8877. Génération de cartes de risque thermique urbain.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

CodeBind propose un framework d'alignement multimodal via codebook compositif partagé-spécifique. La méthode décompose les représentations en composantes sémantiques partagées et spécifiques à chaque modalité, validée sur 9 modalités (texte, image, vidéo, audio, profondeur, thermique, tactile, nuage de points 3D, EEG) avec SOTA en classification et retrieval.

Embeddings Vision Robotique

SIG

HYP

arXiv cs.CL·19 mai

Scalable Environments Drive Generalizable Agents

Position paper argumentant que la généralisation des agents IA nécessite l'expansion de la distribution des environnements (rule-sets exécutables), au-delà du scaling de trajectoires ou de tâches. Propose une taxonomie unifiant trajectory scaling, task scaling et environment scaling, et synthétise paradigmes de construction (générateurs programmatiques vs world models génératifs) pour des environnements scalables.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Analyse théorique complète de la dynamique des gradients dans les têtes d'attention des transformers sous entraînement cross-entropy. Les auteurs établissent une loi de routage basée sur l'avantage et une mise à jour pondérée par responsabilité, montrant que l'optimisation crée des variétés bayésiennes qui implémentent le raisonnement probabiliste en contexte.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

Une étude arXiv révèle que les modèles Mixture of Experts ne spécialisent pas réellement les experts par domaine comme supposé. Le framework COMMITTEEAUDIT identifie un « Standing Committee » — un groupe compact d'experts qui capture la majorité du routage indépendamment du domaine. Les experts périphériques gèrent seuls la connaissance spécifique au domaine.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Double-Calibration: Towards Reliable LLMs via Calibrating Knowledge and Reasoning Confidence

DoublyCal, un framework pour améliorer la fiabilité des LLM en combinant Knowledge Graphs et calibration d'incertitude. Un modèle proxy léger génère des preuves KG avec confiance calibrée, guidant un LLM black-box vers des prédictions plus précises et mieux calibrées. Testé sur benchmarks knowledge-intensive avec coûts token réduits.

RAG Raisonnement Sécurité IA

SIG

HYP