Topic

#Raisonnement

Le raisonnement en IA désigne la capacité d'un modèle à résoudre des problèmes en plusieurs étapes logiques, au-delà de la simple mémorisation. OpenAI o3 en est un exemple : il décompose un problème avant de formuler une réponse.

40Articles

4Sources

73Signal moyen

Reddit r/LocalLLaMA·18 juin

Quick thoughts on GLM-5.2 (Bonus: Censorship question answers)

GLM-5.2 démontre une excellente cohérence sur très long contexte et un raisonnement adaptatif sans verbosité excessive. L'utilisateur rapporte des performances proches de GPT-4.5 sur analyse lourde et recherche approfondie, avec une vitesse d'inférence supérieure à GLM-5.1. Le modèle possède sa propre signature conversationnelle distincte.

Qwen Raisonnement Open source

SIG

HYP

arXiv cs.CL·18 juin

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

Étude arXiv testant la capacité des LLM à interpréter la négation dans le langage figuré. Les chercheurs enrichissent un dataset existant et évaluent plusieurs modèles. Résultat : la combinaison négation + figuré pose un défi particulier, avec forte dépendance au style de prompt.

Évaluations Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench évalue la capacité des agents IA à gérer des tâches complexes sur long terme en simulant l'exploitation d'une startup pendant 500 jours. L'agent doit gérer tarification, marketing, budgétisation via une interface Python. Seuls Claude Opus 4.8 et GPT-5.5 dépassent le bilan initial d'1M$, sans profit constant.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim est un benchmark de prévision basé sur des simulations du jeu Freeciv. Les modèles reçoivent un état de jeu structuré et prédisent des états futurs cachés ; le benchmark continue la simulation pour évaluer les prévisions. Permet des questions à horizons arbitraires, des mondes contrefactuels et des événements rares.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow améliore le speculative decoding en combinant l'efficacité du drafting parallèle avec le conditionnement causal par branche. Sur GPU H100, il atteint 9.64x speedup sur MATH-500 et 4.58x sur conversations ouvertes, dépassant les méthodes tree-based existantes sur modèles Qwen3 denses et MoE.

Benchmarks Génération de code Open source

SIG

HYP

arXiv cs.CL·18 juin

LLM Parameters for Math Across Languages: Shared or Separate?

Étude mécanistique du raisonnement mathématique dans les LLM multilingues. Les paramètres associés aux maths montrent un chevauchement partiel entre langues, concentré dans les couches intermédiaires. L'anglais produit le plus grand ensemble de paramètres pertinents, tandis que les langues peu dotées en ressources en révèlent moins.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Dual Dimensionality for Local and Global Attention

Les chercheurs proposent Distance-Adaptive Representation (DAR) : réduire la dimensionnalité des clés/valeurs au-delà d'une fenêtre locale dans les Transformers décodeur-seul. Les tokens proches nécessitent des représentations complètes pour prédire le token suivant, tandis que les tokens distants peuvent utiliser 1/4 de la dimensionnalité originale sans dégradation. Testé sur modèles 70M-410M et fine-tuning 1B.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

BCL: Bayesian In-Context Learning Framework for Information Extraction

BCL est un framework d'optimisation pour l'extraction d'information utilisant le filtrage particulaire et les mises à jour bayésiennes. Il affine systématiquement les représentations d'étiquettes pour le labeling de séquences et la classification de relations, montrant des améliorations consistantes sur plusieurs échelles de modèles.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·18 juin

TW-LegalBench: Measuring Taiwanese Legal Understanding

TW-LegalBench évalue 13 LLMs sur le droit taïwanais avec 16 000+ questions à choix multiples, 117 essais ouverts et 14 000+ cas de prédiction judiciaire. Les meilleurs modèles dépassent le seuil de qualification des avocats (11%) mais échouent pour juges/procureurs (1-2%). Les modèles peinent à citer les articles légaux exacts.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

ScholarSum propose un cadre hiérarchique basé sur graphes de connaissances pour la résumé abstractif scientifique. Le système organise les documents en unités sémantiques cohérentes, génère un brouillon initial, puis l'affine via un processus itératif de vérification et de réécriture pour assurer cohérence logique et fidélité factuelle.

Papers RAG Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Approximate Structured Diffusion for Sequence Labelling

Nouvelle approche combinant diffusion et CRF pour le sequence labelling en NLP. La méthode conditionne un CRF sur la séquence complète de labels (bruitée), contournant les limitations de portée des CRF classiques. Résultats : réduction d'erreur de 16.5% sur le POS-tagging.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

Improving Medical Communication using Rubric-Guided Counterfactual Recommendations

Pipeline de recommandations contrefactuelles guidées par LM pour améliorer la communication médicale en télémédecine textuelle. Le système identifie des features interprétables (ton, personnalisation, clarté, complétude) et recommande des changements minimaux de communication prédits pour augmenter le feedback positif (+6.41% en moyenne). Les modifications préservent le contenu médical et le contrôle du médecin.

Raisonnement Évaluations RAG

SIG

HYP

arXiv cs.LG·18 juin

Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

Gaussian Mixture Attention (GMA) remplace l'attention standard par un routage probabiliste via K composantes gaussiennes apprises. Queries et keys sont mappées à des vecteurs de responsabilité dans un espace latent partagé. GMA évite la matrice N×N explicite et réduit la complexité mémoire à O(NK) au lieu de O(N²). Compétitif sur classification long-contexte, mais derrière SDPA et Mamba sur WikiText-103.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

Artemis: Anatomy-Resolved inTervention for Eliminating Multimodal NeuroImage confounderS

Artemis est un framework causal pour les graphes de neurones qui traite les biais démographiques (âge, sexe) dans l'imagerie cérébrale multimodale (fMRI + DTI). La méthode applique des interventions causales au niveau de chaque région cérébrale pour apprendre des représentations invariantes. Testée sur ADNI, OASIS et HCP, elle améliore les diagnostics de maladie et la classification.

Papers Raisonnement Alignement

SIG

HYP

arXiv cs.LG·18 juin

Ghost Attractor Networks: Basin-Structured Dynamical Decoders for Closed-Loop Sequential Generation

Ghost Attractor Networks propose un décodeur dynamique efficace pour la génération séquentielle en robotique. Avec 2,3M paramètres, il égale la précision d'un Diffusion Transformer de 1,07B paramètres (462× moins de paramètres, 32× plus rapide). Sur LIBERO-10, le conditionnement de phase améliore le taux de succès de 13,5 points vs MLP.

Génération de code Robotique Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Why SWAVE May Not Be All You Need:A Concept-Evolution Retrospective on Complex-Valued Recurrent Language Models

SWave est un modèle de langage récurrent à valeurs complexes (169M paramètres) entraîné sur FineWeb-Edu. L'article documente son évolution sur trois phases, identifiant des défaillances structurelles (cos-domination collapse) et validant les composants critiques (ComplexNorm, Wave Propagation Scan). PPL final : 22.0 à l'étape 89,861.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Nouvel ordonnanceur pour l'inférence LLM qui remplace la prédiction de longueur par des signaux statistiques légers et l'ajustement dynamique de priorités. Réduit P99 TTLT de 35-50% vs SRPT avec connaissance parfaite de longueur, et TTFT de 34-47% sur traces production et open-source.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

Étude sur le grokking (transition retardée de la mémorisation à la généralisation). Les auteurs montrent que la norme des poids ne contrôle pas directement le délai de grokking, mais agit via l'échelle des logits. En fixant la norme et variant la température de sortie, ils retrouvent 85% du délai en ajustant l'échelle logit. L'effet dépend de la fonction de perte (cross-entropy vs MSE).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Structured Representation Learning with Locally Linear Embeddings and Adaptive Feature Fusion

Framework RL inspiré par les neurosciences qui sépare les features dynamiques et récompense via locally linear embeddings (LLE) et fusionne adaptivement les représentations par mécanisme d'attention. Améliore l'efficacité d'apprentissage sur benchmarks comparé aux approches RL conventionnelles.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb est un benchmark de 372 648+ instances pour évaluer le raisonnement abductif défaisable dans les modèles de langage. Les meilleurs modèles frontier atteignent 65% en conditions standard mais chutent à 23,5% en évaluation robuste au rendu, contre 100% pour un solveur logique symbolique. Le benchmark inclut trois niveaux de difficulté avec vérification polynomiale des hypothèses.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Optimizing Lithium Production Decisions under Geological, Demand, and Pricing Uncertainties: A POMDP Framework for Multi-Objective Decision Making

Un cadre POMDP optimise les décisions de production de lithium en intégrant incertitudes géologiques, de prix et de demande. Les solveurs POMDP surpassent les heuristiques humaines en s'adaptant dynamiquement aux régimes de prix (statique, linéaire, exponentiel, stochastique) et en séquençant optimalement exploration, production et choix technologique.

Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

What Must Generalist Agents Remember?

Article théorique sur la mémoire des agents généralistes. Démontre qu'un agent performant sur plusieurs domaines doit maintenir des distributions mémoire distinctes aux goulots d'étranglement observationnels. La mémoire permet la désambiguïsation de domaine, la reconstruction de dynamiques de transition et la planification.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·18 juin

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

WorldLines est un benchmark pour agents incarnés sur long horizon testant la mémoire dans des environnements domestiques dynamiques. Le dataset inclut traces temporelles avec dialogues, actions, changements d'état d'objets/appareils. ObsMem, un framework de mémoire basé observateur, maintient des mémoires conscientes de la visibilité et des traces d'état pour des décisions informées.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

Generative-Model Predictive Planning for Navigation in Partially Observable Environments

BeliefDiffusion combine diffusion models et Model Predictive Control pour la navigation en environnements partiellement observables. Le framework génère des distributions de croyance multimodales et planifie des stratégies de navigation efficaces. Expériences sur cartes synthétiques : surpasse RL et autres approches génératives en taux de succès et efficacité de trajectoire.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

RTSGameBench est un benchmark pour évaluer le raisonnement stratégique des Vision-Language Models (VLMs) dans des jeux de stratégie en temps réel. Basé sur Beyond All Reason, il propose des évaluations multi-scénarios, des mini-jeux diagnostiques ciblant des compétences spécifiques, et un framework auto-évolutif. Les VLMs actuels échouent sur la coordination multi-agents et les tâches complexes.

Vision Raisonnement Multi-agents

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·18 juin

Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction

Nouvelle théorie formelle (HACD-H) modélisant l'émergence de l'intelligence sociale dans l'interaction humain-IA long-terme. Framework unifié intégrant adaptation émotionnelle, mémoire sociale et cohérence de personnalité. Étude sur 14,700 tours de conversation révèle corrélation négative entre intelligence sociale et énergie cognitive (r=-0.391, p<0.001), avec patterns de transition développementale.

Raisonnement Agents IA Papers

SIG

HYP

arXiv cs.AI·18 juin

NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning

NeSyCat Torch unifie les sémantiques neurosymboliques (classique, floue, probabiliste, neurale) sous une définition unique de la vérité paramétrée par des monades. Implémenté en PyTorch, JAX et HaskTorch, le framework interprète les symboles computationnels via réseaux de neurones. Sur MNIST addition, surpasse LTN et DeepProbLog en vitesse/précision.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·18 juin

Continuous Audio Thinking for Large Audio Language Models

Continuous Audio Thinking (CoAT) ajoute un espace latent continu aux modèles audio-langage pour préserver les informations acoustiques (phonétique, prosodie, affect, pitch) avant génération de texte. Testé sur Qwen2-Audio, Qwen2.5-Omni-7B et Audio Flamingo, CoAT améliore les performances en raisonnement audio, classification musicale et transcription sans coût de décodage supplémentaire.

Raisonnement Voix Qwen

SIG

HYP

arXiv cs.CL·18 juin

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST est un framework auto-supervisé qui améliore le raisonnement pragmatique des LLM via des traces de raisonnement contrefactuel. Sans données annotées humaines, il combine fine-tuning supervisé et apprentissage par renforcement. Sur 4 benchmarks (PragMega, Ludwig, MetoQA, AltPrag), il gagne +5.37% et +5.50% en absolu pour Qwen3-8B et Qwen3-14B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·18 juin

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Étude arXiv sur l'amélioration du raisonnement long-contexte via une approche data-centric plutôt que l'ingénierie des récompenses. Recette de données ciblant retrieval, synthèse multi-preuves et raisonnement (~14K exemples). Tests sur Qwen3 (4B/8B/30B) : +7.2/+3.2/+6.4 points sur 7 benchmarks long-contexte, transfert aux tâches agentic (+4.8 GAIA, +7.0 BrowseComp).

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.LG·18 juin

A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks

Lien mathématique établi entre la théorie des ondes de choc et la dynamique de descente de gradient stochastique symétrique pour réseaux de neurones. Après quotient des symétries et coarse-graining entropique, la dynamique effective satisfait une équation Hamilton-Jacobi visqueuse. Appliqué à MLPs, CNNs, Transformers et réseaux mean-field.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

ThousandWorlds: A benchmark for climate emulation of potentially habitable exoplanets

ThousandWorlds est un benchmark ML pour l'émulation climatique d'exoplanètes potentiellement habitables. Le dataset contient ~1800 simulations de 5 modèles climatiques globaux mappant 8 paramètres planétaires à des champs atmosphériques 3D. Trois sous-ensembles progressifs et deux protocoles d'évaluation testent 7 baselines ; les méthodes GP surpassent le deep learning standard.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero utilise des agents LLM avec recherche arborescente pour découvrir des stratégies d'entraînement RL adaptatif. Le système identifie que les paramètres de capacité augmentent monotoniquement tandis que les paramètres de régularisation oscillent. Sur 4 tâches GRPO, les stratégies découvertes surpassent le modèle de base de 9-140% et la recherche en grille de 6-15%.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Task-Restricted Symmetries in Recurrent Weight Space

Étude des redondances fonctionnelles dans les RNNs à une couche via décomposition de Schur. Les auteurs identifient des couplages non-normaux supprimables sans perte majeure sur certaines tâches (copie, flip-flop, génération sinusoïdale), révélant des invariances fonctionnelles approximatives spécifiques à chaque tâche plutôt que des symétries universelles.

Papers Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

L'étude montre que l'overtraining en SFT peut inverser le classement des modèles lors du fine-tuning RLVR. Sur Qwen2.5-Coder-3B, l'augmentation de la profondeur SFT élève pass@1 pré-RL mais réduit pass@10 GRPO de 0.806 à 0.481. L'entropie pré-RL corrèle positivement avec les résultats RLVR (ρ=+0.69). Un diagnostic deux étapes basé sur l'entropie peut identifier les checkpoints à risque.

Reinforcement learning Fine-tuning Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Beyond AHI: An Interpretable Causal-Discovery-Guided Framework for Sleep Recovery in Connected Health

Framework causal pour scorer la récupération du sommeil à partir de polysomnographie multimodale. Utilise DAG learning sur deux cohortes (MESA n=1540, MrOS n=825) pour identifier 5 domaines physiologiques (charge respiratoire, hypoxie, fragmentation, architecture, régulation autonome). Le Sleep Recovery Score (SRS) obtient 2.5× meilleure corrélation avec la récupération perçue que l'AHI classique.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT est un framework agentic-RAG modulaire qui réduit les hallucinations des VLMs via une pipeline fermée à 5 étapes (Extractor, Retriever, Solver, Citation Injector, Verifier). Les réclamations non fondées déclenchent une re-retrieval ciblée. 23 métriques composantes et CaVeScore mesurent la fidélité des citations et l'ancrage multimodal. Résultats : 87,1% accuracy sur ScienceQA, 55,2% sur MMMU.

Vision RAG Agents IA

SIG

HYP

arXiv cs.AI·18 juin

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Xcientist est un système qui externalise la synthèse de recherche et la validation expérimentale des scientifiques IA en processus inspectables et gouvernés par contrats. Il organise les preuves littéraires, états d'idées, plans d'implémentation et traces de réparation comme artefacts persistants, éliminant la dérive de réclamation où les artefacts exécutables ne soutiennent plus le mécanisme initialement revendiqué.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·18 juin

User as Engram: Internalizing Per-User Memory as Local Parametric Edits

Nouvelle approche de personnalisation LLM : stocker les faits utilisateur comme édits locaux dans une table mémoire hashée (Engram) plutôt que via LoRA global. Réduit l'empreinte mémoire de 33 000x, améliore la précision du raisonnement indirect de 5,6x en moyenne, et permet de stacker plusieurs utilisateurs sans contamination croisée.

Fine-tuning Raisonnement Papers

SIG

HYP